找到了这个办法。
antiword 是 linux 及其他 RISC OS 下免费的 ms word 文档读取器。使用它可以很方便的在 Linux 中读取 word 文档并输出为纯文本字符串。
下载地址:
http://www.winfield.demon.nl下载后解压、编译安装:
tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make
make install
默认安装到当前账户下的 bin 目录中。
使用:
终端中
/home/pi/bin/antiword antiword-test.doc
其他语言中通过各自执行系统命令的方式来执行,比如 Python 中:
import subprocess
word_file = "antiword-test.doc"
content = subprocess.check_output(["/home/pi/antiword", word_file])
print content