4202 年了,有没有好的 doc 文件内容处理方案啊

198 天前
 llllllllllllllii

python-docx 可以处理 docx 文件,doc 会有问题。 如果将 doc 转为 docx 就需要借助外部 win32com 或 libreoffice ,有没有能不借助外部处理方法 或者有没有可以处理 doc 内容获取的的库

1901 次点击
所在节点    Python
12 条回复
openmynet
198 天前
Linux 系统下可以使用 wv 进行处理

wvHtml input.doc output.html
# to text
wvText input.doc output.txt

alpine3 liunx:
apk add --no-cache wv

ubuntu:
apt-get install -y wv
azarasi
198 天前
pandoc
undeflife
198 天前
4202 年了,我的方案是不兼容 doc 和 xls 格式
Latin
198 天前
antiword
djangovcps
198 天前
aspose
xiqnshang
198 天前
我之前处理 doc 文件,写了个转换服务把 doc 转成 docx ,然后把 docx 丢给后台处理
ysc3839
198 天前
看看 WPS 有没有提供什么 API ?
lisxour
198 天前
还是算了吧,毕竟不开源的格式,你强行支持,在用的时候遇到兼容问题这才真的头痛,你自己几乎是完全无法解决的。
bugmakerxs
198 天前
word 处理还是第三方比较靠谱,wps ,libreoffice ,aspose
wumoumou
197 天前
mammoth.browser.js 这个可以把 doc 转成 html ,提取 html 的内容相对容易些
TsubasaHanekaw
197 天前
找台 windows 用 com+接口把 doc 转成 docx,同时还能完成 word ,excel ,ppt 转成 pdf 这些麻烦操作
fuge
196 天前
Powershell

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1047636

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX