类似于\U3e38623c\U3e66643c 格式的是什么编码

2016-03-07 20:21:59 +08:00
 liemehoc

导入一个 sas 文件到 R 里,好多内容是类似\U3e38623c\U3e66643c\U3e30643c\U3e32633c\U3e37633c\U3e38663c 这样的编码,用 iconv 转换了一圈都不对,不知道是哪种编码

\U3e61633c\U3e30643cֱϽ\U3e66633c\U3e37653c
\U3e64623c\U3e35663c\U3e64623c\U3e64613c\U3e37633c\U3e38663c
\U3e65633c\U3e34653c\U3e61623c\U3e65653c\U3e37633c\U3e38663c
\U3e64623c\U3e30663cţ\U3e37633c\U3e38663c
\U3e34623c\U3e33663c\U3e32643c\U3e38643c\U3e66633c\U3e38643c
\U3e36623c\U3e63623c\U3e64623c\U3e64613c\U3e31643c\U3e66643c\U3e61633c\U3e30643c
\U3e31633c\U3e61663c\U3e62623c\U3e61613c\U3e30643c\U3e32633c\U3e37633c\U3e38663c

3405 次点击
所在节点    问与答
21 条回复
oxoxoxox
2016-03-07 20:38:10 +08:00
也许是 utf32
liemehoc
2016-03-07 20:54:31 +08:00
@oxoxoxox 试了 utf16-be/le,utf32-be/le,都不是
dangyuluo
2016-03-07 21:18:23 +08:00
表白暗语
liemehoc
2016-03-07 21:26:38 +08:00
@dangyuluo 不是的- -#
ipconfiger
2016-03-07 21:31:36 +08:00
unicode 编码
liemehoc
2016-03-07 22:09:43 +08:00
@ipconfiger

Python 2.7.9 (default, Mar 1 2015, 12:57:24)
[GCC 4.9.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> u"\U3e38623c"
File "<stdin>", line 1
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-9: illegal Unicode character
ipconfiger
2016-03-07 22:17:34 +08:00
@liemehoc 你把\后面的大写的 U 都改成小写就行了
v1024
2016-03-07 22:23:52 +08:00
8 位 hex 肯定不会是什么文字编码,这估计都可以把外太空的文字含进来了……

楼主发的内容开头结尾很相似,所以考虑是显示错误或者程序自创的东西。
congeec
2016-03-07 22:57:12 +08:00
@ipconfiger 你试过?测试结果贴上来可好?

楼主最好把整个文件贴上来大家看看
ipconfiger
2016-03-07 23:08:21 +08:00
@congeec 试过, oc 里就是大写的 U, 经常这么干
congeec
2016-03-07 23:28:33 +08:00
@ipconfiger 我说你现在能不能把搂住的字符串 decode 出来
zxy
2016-03-07 23:35:24 +08:00
要不要试试 4 位一转?/Uxxxxxxxx 转为 /uxxxx /uxxxx 手机就不实验了
hx1997
2016-03-07 23:39:19 +08:00
开头和结尾的 3e 、 3c 都一样,中间是纯数字而没有字母,不知道能否说明什么。

另外当成 ASCII 码解出来是:
>ac<>0d<>fc<>7e<
>db<>5f<>db<>da<>7c<>8f<
>ec<>4e<>ab<>ee<>7c<>8f<
>db<>0f<>7c<>8f<
>4b<>3f<>2d<>8d<>fc<>8d<
>6b<>cb<>db<>da<>1d<>fd<>ac<>0d<
>1c<>af<>bb<>aa<>0d<>2c<>7c<>8f<
ipconfiger
2016-03-07 23:43:59 +08:00
In [1]: print u"""\u3e61633c\u3e30643cֱϽ\u3e66633c\u3e37653c
...: \u3e64623c\u3e35663c\u3e64623c\u3e64613c\u3e37633c\u3e38663c
...: \u3e65633c\u3e34653c\u3e61623c\u3e65653c\u3e37633c\u3e38663c
...: \u3e64623c\u3e30663cţ\u3e37633c\u3e38663c
...: \u3e34623c\u3e33663c\u3e32643c\u3e38643c\u3e66633c\u3e38643c
...: \u3e36623c\u3e63623c\u3e64623c\u3e64613c\u3e31643c\u3e66643c\u3e61633c\u3e30643c
...: \u3e31633c\u3e61663c\u3e62623c\u3e61613c\u3e30643c\u3e32633c\u3e37633c\u3e38663c"""
㹡633c㸰643cֱϽ㹦633c㸷653c
㹤623c㸵663c㹤623c㹤613c㸷633c㸸663c
㹥633c㸴653c㹡623c㹥653c㸷633c㸸663c
㹤623c㸰663cţ㸷633c㸸663c
㸴623c㸳663c㸲643c㸸643c㹦633c㸸643c
㸶623c㹣623c㹤623c㹤613c㸱643c㹦643c㹡633c㸰643c
㸱633c㹡663c㹢623c㹡613c㸰643c㸲633c㸷633c㸸663c
zhujinliang
2016-03-07 23:49:53 +08:00
估计是误被当作 unicode 解释了,实际内容就是二进制的
看十六进制数值, 3e 开头, 3c 结尾,中间差不多在一个范围内浮动,像是采集来的原始数据
liemehoc
2016-03-08 00:02:37 +08:00
@ipconfiger 小写是 4 位,按内容来看应该是 8 位的


@v1024 应该不是错误,我猜是不是经过二次(误)编码的
Esec
2016-03-08 00:15:30 +08:00
替换 c\U3e 为空格之后当作 10 进制处理依旧得到了一堆不明方块...然后密文贴进 v2 编辑框的时候好像有 2 个字符莫名被转义了,不知道有没有可能拼凑一些其他的字符来绕过这里的防御 [x http://r12a.github.io/apps/conversion/
liemehoc
2016-03-08 00:43:07 +08:00
@congeec
@v1024
@zhujinliang
@hx1997
@zxy

谢谢大家关注,这是其中一个字段的原始数据,从 R 导出的
http://paste.ubuntu.com/15321788/


sha1sum xx.txt
9af8f13920275ac60fe509b20dd19534de555286 xx.txt
md5sum xx.txt
aae22b19e54267328ec79b61688bb6c2 xx.txt
liemehoc
2016-03-08 00:47:04 +08:00
@Esec 我把原始数据导出了 http://paste.ubuntu.com/15321788/
liemehoc
2016-03-08 01:31:35 +08:00
echo "QlpoNjFBWSZTWTIu7UgAH4d7/9AQAQBAAX+AACBgsR5gBUdFYA0/+38X6sfPAkQATGANvl8AAAAAAAAAAAAAAAAABqpsRD1ANGg2iAAAAA0AAAADmE0BoDRowjQYjTEyYmgwjQMgGTA5hNAaA0aMI0GI0xMmJoMI0DIBkwOYTQGgNGjCNBiNMTJiaDCNAyAZMBJKAiYh6nqZoIADI0DACGgAA00epgpKJKCp6npMgPUAAyGgAMgPUA0eob1NM1SIkmQyohgAU94JIHkDGMlSQgGQkhIBJmAQCB0nPM2m60WtNfTownzSouEbzkDijY0XXGxjHKRZQGORZJRMFIm5KG4cCCuFwwEBBFWEMhkx0osRX7tUh9yqo2wSq+8Iv2gmEXAiwE6IuZSHec5VUcULoJwT+AVL7YqwFX2xEvuAnQnQq4CrAqwq6IuihhUuCYUOBQworgqwq2BNUrYTKVhNVGzCLVVGwTCbKqNVGE0RJdFXBOCroRcqIlOCiuBSjCeCr2BPZUhgi4BVwRYRL2iJYKuCrAnAocFS7UU5yqOAq4qQ5uQVcEwUOhQwJgq4E6FWAmEqugTBVwFI6JT/GqlQnRFzzVC1VGFDggcCrwVLgqosFDonROCdEk5Cd1Ud0STVUcqhcqCjgRdBOCiuVESnBQ6JgqXBOCJbvRFqkOVGAmEXQE8UQUMIIdCrCJeCrCUwhRx5UhypVNxRTVC1UrbmE5UbtRqo0Jzgq6FWFDonAnQlVhFwVYUOgnQJ0TlR3QRaopwSnQi+7VQvcKsEp7QVaE1VK1UbCKnvEXROClK4JT3idFDgngqwoYRLBVgBNUh4CrcEDAJwTBJMCrBQwE8BPfUKE9tVQqe4TAJgE93KjVK2CcAmqQwq4oKNUhvfUrned7CU6Jqqo4JgTgq8AKl/4E/0FD9L3Aq94T8gFI+QRcCcCrAnBInROAToi4CrAnRVhVgRbaqNUYVUXAlNFXdVUcqOVSt0ToTgRcFWE4IlwVfgCL/gT8Aq/3FXRKfQKv8xPAE/CJ9Qq+wEqv/QVfOKvxCh9AT5agj8oRfZFXBUsEwmCYTChglVhUsEXAocE4FDlREpgnBFwFWEwqquChhAwTCpfQE+sT4BV/WKHtCfD6qlapDfAUPxVIfIif5Qi1SGCLCpYTao0SmqNUqJhNVFVhMCrBNUpbVFNhFhFhFgJoST56oqtVRzAmqhYJJqjAnOVRwJsE1RhUtgq/T4E+wIvnFXgoYJhNUhwSnAEwIuiroVYJVYE4KHzgq9gi4EXoBMKUehVglVueBFqjilapW3RF6Aq9CrlSl6CVWwodCB0UOCL0Il6E8FXBVgqXoTwIvqBPYKvmFDwJ7BQ9gi9gE4E9CeBFwQo9onoBOihwCeCdCYUPQi4Kl56wT1Uhu1FO8qjnKkPXKo755Uh2qleVHnO1UrgE3aj131UrvVIedUFHgmFDztVR52pXaqN5VHcqjvlR5lKXd2qqOeqqVgmqjVUdaqF3VHr1gTaqPWCeVFMoXEKvAlVhMBV4CrgnBRXoTVVCpwUj0JTlR4FXBVsCao8VRtqqjvITwFXBEsE6BMEwnKj0CaJ0CdBMFXgqwEwgdFDgkTYKtVUYJE0Ku1K9CreCdqA9CehVwCdCYRL3hPlE+UTglOBV9oRdCVXxKKlUfviqn2hKf/Ch8RQ7VUfSEwlPBVgEwQMBPwhKrCJcCYJVfEUPqFDon1Ch4KHxFDAnzCh80+FRToKthF7BMEWFDCkrBMIgwmfGqNVH4+cqSOVHRQ4IRgVfICr6RVwRLoAmEwoYRYKqYVYJVapVMJ8OVRVcCqmEpgJgTCoV7BPgE6EXRSMKuicCL6RMIuirJSjuATaqJNULVJC1VGAn4xVqgPfqoS+vRJPbUh2qqOCSc1Qu1K0UUvYCYFWFWqghYEwIvs1IcCU4E+ITgVcEpgE9wVYFXydqUGqjQnAQMKpMFWAn8QVcFX9QToTgSmiU9aqjVC4FI4KRgoYQo/OCLAIuCLAmFWCdCVX1hFyFXxE0KvcJlKS//F3JFOFCQMi7tSAA==" | base64 -d | tar -jxv

md5sum xxx.txt
011bb699ddb1bbbea243bdc7b2e12e6f xxx.txt
sha1sum xxx.txt
50f24c727c9592e708e1515d30c24c34ed159dc2 xxx.txt

重新整理了一下,原始数据以此为准
@Esec
@zhujinliang
@ipconfiger
@hx1997
@zxy
@congeec
@v1024

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/261763

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX