python 解析 word 的 doc 格式,有什么好办法?

2016-10-21 14:35:48 +08:00
 alfer

方案一: python 解析 docx 格式支持良好但对 doc 格式支持很差,故希望 doc 转为 docx 格式,有什么好办法? 方案二:将 doc 转为 html 格式,然后解析 html ,测试后发现如果数据量大了支持也不好 大家有什么好办法吗?

注:有近 1w 个*.doc 文档,每个文档 100Mz 左右

5449 次点击
所在节点    Python
6 条回复
vicalloy
2016-10-21 14:44:24 +08:00
是需要提取 doc 里的内容?
https://github.com/dagwieers/unoconv 用这个可以将 doc 转成 html 或 docx 。
alfer
2016-10-21 15:51:58 +08:00
@vicalloy 提取 word 中的表格
contractswif
2016-10-21 22:39:22 +08:00
py 通过 office 之类的软件打开 doc ,转换成 docx ,然后自由发挥。这样呢?
contractswif
2016-10-21 22:40:00 +08:00
之前转换了 2000 多个 doc 入 pdf 用的这种方式
xuboying
2016-10-22 14:59:26 +08:00
这种特殊需求还不如现学 VBA 三下五除二,别信 Python 的唯有唯一正确解的梦话。 Perler 说过黑猫白猫,都是好猫
zungmou
2016-11-01 09:26:10 +08:00
用 c#调用 office 接口操作 word 进行解析,应该很容易。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/314416

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX