不需要 OCR 的,都是完全电子版的 PDF 文件。
最好是用脚本的比如 python,尝试过 pdfminer 感觉性能很弱鸡,鲁棒性也不够(也可能是我用的不对?在一个 1 核 2G 的云服务器上跑 50 页左右的,经常被强制 KILL );
实在不行也可以用软件,但是必须要能批量(手头文件很多)
谢谢大噶,被一个小需求烦死了,感觉市面上解决方案不多。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.