pdf 复制出来是乱码 怎么解决

2023-09-10 16:01:32 +08:00
 amiwrong123

pdf 是 mindshare 的书籍(出版时间大概 2000 年),看起来每个单词都是可以复制的,但是复制出来却是乱码。

用了好几种编辑器打开,复制都是乱码:wps 、SumatraPDF 、adobe reader 、zerote 。

网上看的方法: https://www.bilibili.com/read/cv23470141/ 查看了字体类型,去网站里搜,也搜不到。

PS:之前用 python 想读取这个 pdf 里面的内容,发现是程序读取出来都是乱码的。结果发现复制 都是乱码的。。

2248 次点击
所在节点    程序员
13 条回复
yinmin
2023-09-10 16:13:56 +08:00
OCR
kokutou
2023-09-10 16:15:00 +08:00
内嵌字体,字体和文字不是对应的,参考起点之类的在线加密。。。
yinmin
2023-09-10 16:19:04 +08:00
运行 QQ 电脑版,然后用快捷键 ctrl-alt-A ,选中屏幕区域点击“屏幕识图”按钮,等几秒就能 copy 文字了,识别率还是比较好的。
Puteulanus
2023-09-10 16:41:38 +08:00
不好识别的话淘宝还有代手打的
Ericcccccccc
2023-09-10 16:52:19 +08:00
截图到微信里然后用自带的 ocr 吧
n1cogrv
2023-09-10 16:57:19 +08:00
@kokutou #2 @amiwrong123
要真是这样的话,OP 直接考虑 OCR 吧,不要考虑从数字层面读取了。

可以看看 https://github.com/hiroi-sora/Umi-OCR
amiwrong123
2023-09-10 17:37:08 +08:00
@n1cogrv #6
试了下这个项目,OCR 还可以。
哎,坑爹的 pdf
abc8678
2023-09-10 19:08:43 +08:00
我也遇到过,在某之家问,还被嘲笑了,说复制都不会
amiwrong123
2023-09-10 21:16:45 +08:00
@abc8678 #8
但比较神奇的是,在这个 pdf 里,搜索单词,却又是可以的。
cr51k2
2023-09-10 22:23:37 +08:00
pdf 转 word 没,或者一定要纯文字吗?之前我报价做单,有些标书是乱扫描的,懒得搞就直接截图放 excel 然后报价了。
如果工作下一步骤不是机器的话,还可以变通一下。
Jwyt
2023-09-11 00:23:14 +08:00
字体问题,无解的,最好最有效地办法就是 ocr
kergee
2023-09-11 07:24:26 +08:00
OCR ,然后让 GPT 整理
296727
2023-09-11 08:41:16 +08:00
有可能内外两层,跟蒙层一样

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/972473

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX