word 转 text 的有比较完美的方案吗

2018-08-11 16:18:58 +08:00
 tomheng

需求是这样的,转成有一定格式的 text (保留换行,空格等)

docx 转 text 基本搞定,因为 docx 其实是一个 zip,里面是文本格式的 xml,然后用了 html 转 text 的方式,转出来可以接受。

但是 doc 转 text 开始用的 antiword 但是有些文件转不了,想问下大家有什么好的方案吗?

4296 次点击
所在节点    程序员
27 条回复
PythonAnswer
2018-08-12 08:09:23 +08:00
com 是个好东西。linux 下一班怎么玩?有类似的吗?
omph
2018-08-12 08:17:27 +08:00
Apache POI - the Java API for Microsoft Documents
shilyx
2018-08-12 11:48:33 +08:00
poi 读取-》另存为

不过更高级的方案是在 widnows 服务器上安装 office,然后 vc 中使用 activex 控制另存为,完美,绝对完美的 doc-》 docx
ps1aniuge
2018-08-12 20:55:36 +08:00
安装 word。用 powershell 调用 com 方式另存为 txt,效果最好
gnaggnoyil
2018-08-12 22:01:41 +08:00
@PythonAnswer LibreOffice 据说有个叫 UNO 的东西和.COM 比较类似,具体怎么用不清楚,你可以自己查查看……
PythonAnswer
2018-08-12 22:59:20 +08:00
uno 是包装的 java,调用起来不太爽
Doodlister
2018-08-28 10:02:24 +08:00
@longyujin9 纯文本的话。。 直接 OCR。。。比你这个还暴力 哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/478883

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX