Python 读取 doc 文件有啥好办法那?注意是 doc,不是 docx.

2018-05-21 13:19:06 +08:00
 soho176
5606 次点击
所在节点    Python
8 条回复
soho176
2018-05-21 13:56:39 +08:00
找到了这个办法。
antiword 是 linux 及其他 RISC OS 下免费的 ms word 文档读取器。使用它可以很方便的在 Linux 中读取 word 文档并输出为纯文本字符串。

下载地址: http://www.winfield.demon.nl

下载后解压、编译安装:

tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make
make install
默认安装到当前账户下的 bin 目录中。

使用:
终端中

/home/pi/bin/antiword antiword-test.doc
其他语言中通过各自执行系统命令的方式来执行,比如 Python 中:

import subprocess
word_file = "antiword-test.doc"
content = subprocess.check_output(["/home/pi/antiword", word_file])
print content
soho176
2018-05-21 19:02:59 +08:00
但是这个办法是 Linux 下的有没有 win 下的办法那?
xuegj1010
2018-05-21 21:24:39 +08:00
先用 win32com 把 doc 转换成 docx,然后再用 python-docx 读 docx 就比较好处理了
soho176
2018-05-21 21:38:55 +08:00
@xuegj1010 这个办法我试过了,doc 转 docx 的时候电脑会打开 doc 文件,好像我这盗版的有啥文件缺失,没法转成功
omph
2018-05-21 22:02:12 +08:00
PythonAnswer
2018-05-21 23:38:01 +08:00
找台电脑转 docx
Arnie97
2018-05-23 01:17:09 +08:00
我非常确定 Antiword 支持 Windows,我在 Windows 下用它来实现 Word 文档的 git diff。
soho176
2018-05-23 14:54:56 +08:00
@Arnie97 确定能这样用?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/456487

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX