pdf 复制出来是乱码怎么解决

pdf 是 mindshare 的书籍(出版时间大概 2000 年)，看起来每个单词都是可以复制的，但是复制出来却是乱码。

用了好几种编辑器打开，复制都是乱码：wps 、SumatraPDF 、adobe reader 、zerote 。

网上看的方法： https://www.bilibili.com/read/cv23470141/ 查看了字体类型，去网站里搜，也搜不到。

PS：之前用 python 想读取这个 pdf 里面的内容，发现是程序读取出来都是乱码的。结果发现复制都是乱码的。。

yinmin

2023-09-10 16:19:04 +08:00

运行 QQ 电脑版，然后用快捷键 ctrl-alt-A ，选中屏幕区域点击“屏幕识图”按钮，等几秒就能 copy 文字了，识别率还是比较好的。

n1cogrv

2023-09-10 16:57:19 +08:00

@kokutou #2 @amiwrong123
要真是这样的话，OP 直接考虑 OCR 吧，不要考虑从数字层面读取了。

可以看看 https://github.com/hiroi-sora/Umi-OCR

cr51k2

2023-09-10 22:23:37 +08:00

pdf 转 word 没，或者一定要纯文字吗？之前我报价做单，有些标书是乱扫描的，懒得搞就直接截图放 excel 然后报价了。
如果工作下一步骤不是机器的话，还可以变通一下。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

pdf 复制出来是乱码 怎么解决