扫描版 PDF 使用 OCR 软件转换成可复制版本的 PDF 之后，如何再转换成 epub 等移动设备可阅读的版本？

一个中文扫描版 PDF ，我用 OCR 软件，比如 AABY Fine Reader 转换成了可以复制文字的版本，但是对于这种版本，使用 calibre 转换成 mobi 或者 epub 格式，都是失败的。

我觉得可能的原因是，OCR 软件并没有改变 PDF 的外观。每个文字仍然是原来的图像，只不过可以复制。这种和纯文字版非扫描版的还是有区别。

如果想转化成移动设备友好的格式，该怎么做呢？

ygchy

2022-06-03 23:42:52 +08:00

扫描版 PDF 用 OCR 识别出来的文本准确度还是比较低的吧，但如果能接受……或许可以先把 PDF 转换成 Word ，然后再用 Word 文档制作 epub ？新版本的 Word 可以直接选择 PDF 文档打开进行转换。但总的来说这个过程要不得花很多时间校对，要不就只能忍受 OCR 出来有大量错误的文本……自己阅读用的话感觉并划不来。

shinsekai

2022-06-04 07:02:48 +08:00

foxit 高级 pdf 编辑器可以直接 ocr 成“可编辑的文字”然后支持导出 html 格式，转 epub 应该就方便了

i3x

2022-06-04 07:36:16 +08:00

@ygchy 印刷体不至于。哪怕直接扫书。。。
十几年前的打印机光盘内置的汉王我觉得都可以接受。。。正常的书没什么，包括图的注那么小的都能认，除了书压不平可能里面一排字不认。。。几百个字错一两个还好了。

楼主如果是安卓之类的移动设备就直接缩放 pdf 对付着看吧。。。。如果是电纸书，劝退。。。。这种大 pdf 打开可能就死机了。转成其他的格式整理工作量太大

xyjincan

2022-06-04 08:15:43 +08:00

orc_pdf 原理,应该是在原有 pdf 基础上添加了一层不可见的可复制逐个字符，不具备原生 pdf 文本的重排版能力

kongkx

2022-06-04 12:52:45 +08:00

想办法导出 html 。校对是个问题，保留段落排版的格式应该现在有工具可以做，之前看到的这个单一图片处理的 https://www.v2ex.com/t/851543?p=2 。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/857177

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.