请教 v 友如何分辨一个 pdf 文档是扫描版还是文字版?速度优先,准确率其次

1 天前
 mclxly

问了大模型,目前用 pdfinfo/pdffonts/pdfimages 结合来,准确度不理想。

584 次点击
所在节点    问与答
12 条回复
tool2dx
1 天前
纯扫描版就是 jpg 内嵌大图,没有具体文字可以选中,用 pdf 文字提取工具,很容易识别的吧。
shintendo
1 天前
文件体积除以页数
gpt5
1 天前
@tool2dx 很多扫描都是带 ocr 的,可以选文字。
paopjian
1 天前
直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版
mclxly
1 天前
@tool2dx 有大量文件,得程序自动识别

@shintendo 文件 1:25 页/588K 文件 2:334 页/1.7M 文件 3:141 页/3.3M ,你说这三本书咋区分?
mclxly
1 天前
@paopjian 我遇到过可以提取少量文字的电子书(主要是扫描图片)
sketcherly
1 天前
直接解析 pdf 统计字数呢
CLMan
1 天前
就算是用 文件大小/页 ,准确率应该也差不到哪里去。
cowcomic
1 天前
如果是大面上的区分的话,大小除以页数应该就是比较迅速的方式了
除非要求比较精确,百分之多少是图片之类的
mclxly
1 天前
@sketcherly 扫描版大部分是图片

@CLMan 单页大小阈值不好确定

@cowcomic 百分比阈值不好确定,我遇到过每页都有背景图的文字版电子书
xiaomageit
1 天前
降精
israinbow
18 小时 42 分钟前
文字版 pdf 转成 html 看起来会很有逻辑.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1096408

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX