扫描版 PDF 使用 OCR 软件转换成可复制版本的 PDF 之后,如何再转换成 epub 等移动设备可阅读的版本?

2022-06-03 22:29:10 +08:00
 movq

一个中文扫描版 PDF ,我用 OCR 软件,比如 AABY Fine Reader 转换成了可以复制文字的版本,但是对于这种版本,使用 calibre 转换成 mobi 或者 epub 格式,都是失败的。

我觉得可能的原因是,OCR 软件并没有改变 PDF 的外观。每个文字仍然是原来的图像,只不过可以复制。这种和纯文字版非扫描版的还是有区别。

如果想转化成移动设备友好的格式,该怎么做呢?

2579 次点击
所在节点    程序员
10 条回复
Maipol
2022-06-03 22:57:18 +08:00
之前大概了解过,pdf 和 epub 底层好像完全是两个东西吧
ygchy
2022-06-03 23:42:52 +08:00
扫描版 PDF 用 OCR 识别出来的文本准确度还是比较低的吧,但如果能接受……或许可以先把 PDF 转换成 Word ,然后再用 Word 文档制作 epub ?新版本的 Word 可以直接选择 PDF 文档打开进行转换。但总的来说这个过程要不得花很多时间校对,要不就只能忍受 OCR 出来有大量错误的文本……自己阅读用的话感觉并划不来。
whileFalse
2022-06-04 03:03:14 +08:00
AABY 只能导出 pdf 吗?能不能导出 word
shinsekai
2022-06-04 07:02:48 +08:00
foxit 高级 pdf 编辑器可以直接 ocr 成“可编辑的文字”然后支持导出 html 格式,转 epub 应该就方便了
i3x
2022-06-04 07:36:16 +08:00
@ygchy 印刷体不至于。哪怕直接扫书。。。
十几年前的打印机光盘内置的汉王我觉得都可以接受。。。正常的书没什么,包括图的注那么小的都能认,除了书压不平可能里面一排字不认。。。几百个字错一两个还好了。


楼主如果是安卓之类的移动设备就直接缩放 pdf 对付着看吧。。。。如果是电纸书,劝退。。。。这种大 pdf 打开可能就死机了。转成其他的格式整理工作量太大
xyjincan
2022-06-04 08:15:43 +08:00
orc_pdf 原理,应该是在原有 pdf 基础上添加了一层不可见的可复制逐个字符,不具备原生 pdf 文本的重排版能力
waterlaw
2022-06-04 10:51:58 +08:00
@Maipol epub 底层是 html/css, pdf 有自己的格式
ltkun
2022-06-04 11:07:13 +08:00
koreader 了解一下
kongkx
2022-06-04 12:52:45 +08:00
想办法导出 html 。校对是个问题,保留段落排版的格式应该现在有工具可以做,之前看到的这个单一图片处理的 https://www.v2ex.com/t/851543?p=2
felixcode
2022-06-04 13:39:38 +08:00
可以用 abbyy fine reader 这样的软件导出成 word 文档,再做转换。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/857177

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX