朋友工作总要找资料什么的,大多是 pdf 扫描版格式,无法复制,需要转成 word 或者文字,但由于其人穷,又不买那些 pdf 在线转换 word 的工具。得知后,帮助开发一个工具给她使用。
node test/ocr.test.js
(图片文字提取)node test/pdf.test.js
( PDF 文字提取)本项目基于百度 AIP 平台,OCR 接口
这个简单,直接走百度 OCR 即可得到结果。node.js 调用 SDK 而已
这个通过pdfinfo
工具 + GraphicsMagick
来实现,pdfinfo 获取 pdf 文件信息(分页信息等),GraphicsMagick 将 pdf 作为图片(处理图片很强大)。
这个麻烦是在 pdfinfo
工具是无法获取 pdf 文件信息的,需要代码做兼容情况处理。扫描版 PDF 最终还是转换图片后再 OCR 提取文字。
详细使用方式阅读README.md
https://github.com/giscafer/easyocr
欢迎━(`∀´)ノ亻!学习交流
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.