复制文字版的 pdf 文件的内容出来变成了乱码

2023-09-21 08:43:57 +08:00
 xiiing

有一个文字版的 pdf 文件,没有密码,但是复制一段文本粘贴到其他地方却变成了乱码。

请问这是一种加密处理吗? 文件链接: https://files.catbox.moe/iccws1.pdf 谢谢!

1898 次点击
所在节点    字体排印
13 条回复
BeyondBouds
2023-09-21 08:56:02 +08:00
△このような事故が起きるとは想像だにしなかった。
xiiing
2023-09-21 09:13:59 +08:00
@BeyondBouds 请问是用什么阅读器打开的,我用的 fox 复制出来是这样的:“˚͜ͷΑ͏ͳ͖ى͕ނࣄΔͱ͸૝૾ͩʹ͠ͳ͔ͬͨɻ ”
codeself
2023-09-21 09:44:36 +08:00
直接浏览器就能打开啊
xiiing
2023-09-21 09:52:51 +08:00
@codeself 有点奇怪,我用谷歌和火狐打开都不能复制文字出来。谷歌打开,复制出来的也是这样:“͜ͷΑ͏ͳނࣄ͕ى͖Δͱ͸૝૾ͩʹ͠ͳ͔ͬͨɻ”
BeyondBouds
2023-09-21 10:03:19 +08:00
@xiiing 截图 OCR .....哈哈😄,我也复制不出来
Eacls
2023-09-21 10:06:03 +08:00
字体问题吧,可能系统没有适配这个日文所用的原版字体。
cnoder
2023-09-21 10:07:35 +08:00
用 wps 转文字
xiiing
2023-09-21 10:26:33 +08:00
@BeyondBouds ok ,我以为你能复制出来。这个加密方式还是值得研究的。
c2const
2023-09-21 10:29:47 +08:00
△たしかにここおいたはずなのに、いくら探しても見当たらない。
tool2d
2023-09-21 10:53:13 +08:00
是不行,用 pdf 工具打开看了一下。是和游戏一样的嵌入式字体,原始 utf8 编码都被打乱了。
xiiing
2023-09-21 18:03:10 +08:00
@c2const 有解吗?
c2const
2023-09-22 09:51:57 +08:00
@xiiing
1.用代码去读 pdf 文件,先处理内嵌字体,找到内嵌字体中编号和字符新的对应关系,再复制出来就行了。
2.用你顺手的编程语言就行,至于三方 pdf 库的选择,随便选吧,如果不熟悉,就多问问 chatGPT ,让它帮你写个大概 :)
xiaomageit
229 天前
@c2const 正解

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/975728

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX