pdf 文件的文本不能搜索,但导入到 google docs 里就可以搜索,怎么使 pdf 文件解除不能搜索文本的限制?

2022-02-28 18:44:07 +08:00
 kgdb00
3041 次点击
所在节点    程序员
22 条回复
imldy
2022-02-28 19:52:03 +08:00
换个浏览器或者 pdf 阅读器
kgdb00
2022-02-28 20:00:54 +08:00
@imldy 试了 chrome ,firefox ,evince 都不行,而且我这个 pdf 是要发给别人看的,所以应该要保证所有工具都能搜索。
pendulum
2022-02-28 20:41:08 +08:00
可能你这个 PDF 是扫描件,本身没有文字。但传 Google 后,它帮你 OCR 了,所以你能搜索
kgdb00
2022-02-28 21:36:34 +08:00
@pendulum 文档看起来很清晰,不像是扫描件。
qwq11
2022-02-28 22:37:17 +08:00
什么叫「不能搜索」,是搜索了没有任何结果,还是按 Ctrl F 弹个提示框出来说该文档不支持搜索
如果是搜索了没有任何结果,那多半就是你 pdf 没有把字连成句之类的问题。
lekai63
2022-02-28 22:39:09 +08:00
有些 pdf “已加密”就会能看但不能搜索

ctrl+p 打印为 pdf 试试
kgdb00
2022-02-28 22:52:49 +08:00
@qwq11 用 chrome 搜索没有任何结果
kgdb00
2022-02-28 22:53:23 +08:00
@lekai63 用 chrome 试了,不行。
mikewang
2022-02-28 22:55:21 +08:00
如果是加密文件,可 Unlock PDF: https://www.ilovepdf.com/unlock_pdf
如果是内嵌图片(文件大小一般在 MB 级别,不一定是扫描件),你需要 OCR 。
illl
2022-02-28 23:02:43 +08:00
用 adobe 的一款软件做一下光学文字识别,再保存一下就可以了
kgdb00
2022-02-28 23:03:22 +08:00
@mikewang Unlock PDF 试了,不行
MacDows
2022-02-28 23:04:48 +08:00
@kgdb00 那就 acrobat 识别一下,大概率能用了
duke807
2022-02-28 23:13:04 +08:00
inkscape 導入看一下
dingwen07
2022-03-01 00:17:13 +08:00
使用 Okular ,设置里的“遵循 DRM”关掉
kgdb00
2022-03-01 00:36:07 +08:00
@dingwen07 试了,也不行。
leaves7i
2022-03-01 01:50:55 +08:00
上传 google docs 分享链接
Tilie
2022-03-01 07:38:16 +08:00
acrobat 右侧有个开关 “所有页面可编辑” 打开之后会一页一页的 ocr 识别
适用于扫描出来的
danny1900
2022-03-01 08:38:23 +08:00
ABBYY FineReader ,试下这个 pdf 编辑器,自带 ocr 可以让你搜索
luny
2022-03-01 09:43:22 +08:00
看一下文档的属性,里面有一些安全项
有软件可以解除限制
nanvon
2022-03-01 11:40:49 +08:00
那就说明这个 pdf 内不是文字,是图片。图片需要被 OCR 后才能被搜索文字

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/836980

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX