项目语言是 Java,运行在 CentOS6.9 服务器上,主攻业务就是可搜索 PDF ( SearchablePDF )的处理和归档
最近来了个需求,需要将纯图片 PDF ( ImagePDF )在项目里 OCR,然后继续处理。
筛选了市面很多产品,最终锁定 ABBYY 的开发者 SDK,可以集成进项目,效果也不错,算市面同类产品独一档。本来和那边客服改谈的都谈好了,Demo 写完了,就等 license 买下来开搞,最后因为是国外软件,不好申请科研经费,方案惨遭腰斩。
问题来了,现在国内有什么好用的 PDF 文档 OCR 产品?
几个硬性要求:
1.可以是 Windows 上的桌面软件(最迫不得已的方案。退而求其次,让用户手动去转),最好是 Linux 上的 SDK
2.桌面软件支持批量处理,SDK 用多线程操作或者批量操作不会有太大的性能问题
3.可以保存为可搜索 PDF
4.除了识别 PDF 页面中的文字,也能识别 PDF 页面中的图片和表格
5.对 PDF 字体大小和位置敏感,OCR 结果排版应该和原文一致
福昕应该是国内 PDF 这一块做的最好的了,可惜它只有 Windows 版的 SDK 才支持 OCR 。不知道还有什么选择推荐,先在这里谢谢了
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.