楼主现在有个需求,是要将 PDF 扫描件也就是图片转换成 word 格式文件。目前能想到的是直接调用第三方的 OCR 接口,但是图片中定部和底部的内容识别后不能保持原来的样式,中间的表格的样式可以保存。
有试过腾讯云和百度智能云的表格识别,接口支持返回 excel 文件的 base64 编码。但是顶部和底部的样式保存不了,查了下这两家都不支持返回 word 格式。这个大佬们有好的思路推荐吗?
主要是考虑到 PDF 扫描件的格式不确定,所以不能提前设置好模板去写 word 文件。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.