如何精确地做扫描件 pdf 文本可搜索嵌入

abbyy 直接处理图片，直接把图片的文字替换了，图片清晰度大幅度下降
abbyy 直接处理 pdf ，结果文件出现问题（一张纸上结果图片非常小且不能复制）
Adobe 中文识别效果不佳
有何免费的方案去把扫描 pdf 做 ocr 并嵌入（可直接在 pdf 查看里搜索，比如 edge 的 pdf 打开后可以复制）
想要 pdf 文件显示的是高清晰度的图片且可以复制/搜索文字
最好同时支持中文/英文/数学公式这类的 OCR

mgrddsj

116 天前

Abbyy 的默认设置确实不是特别好，你试试把 Abbyy 里面压缩相关的设置都关掉（印象中有好多个地方需要关），效果会好很多。

Censhuang

116 天前

@mgrddsj #1 主要是这软件感觉不太好用，不太聪明的样子，用的破解版，崩了后得点好几遍才能启动

Liftman

116 天前

Wondershare PDFelement

iX8NEGGn

116 天前

你电脑性能好，就上最近流行的哪些 AI OCR ，否则其他软件对 ABBYY 来说还真没一个能打的，不过它 OCR 后导出文件默认会压缩，不开压缩文件会特别大，原来几百兆的 PDF 会膨胀到几 GB ，我之前电子化纸制书时就遇到了。

解决办法就是，把 ABBYY OCR 后导出的带文本层的压缩的 PDF 用 pymupdf 提取成纯文本层的 PDF ，接着继续用 pymupdf 把原来的高清图片 PDF 和纯文本层的 PDF 叠加，得到一个既高清又带文本层的 PDF 。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1083725

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.