V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
liemehoc
V2EX  ›  问与答

类似于\U3e38623c\U3e66643c 格式的是什么编码

  •  
  •   liemehoc · 2016-03-07 20:21:59 +08:00 · 3401 次点击
    这是一个创建于 3186 天前的主题,其中的信息可能已经有所发展或是发生改变。

    导入一个 sas 文件到 R 里,好多内容是类似\U3e38623c\U3e66643c\U3e30643c\U3e32633c\U3e37633c\U3e38663c 这样的编码,用 iconv 转换了一圈都不对,不知道是哪种编码

    \U3e61633c\U3e30643cֱϽ\U3e66633c\U3e37653c
    \U3e64623c\U3e35663c\U3e64623c\U3e64613c\U3e37633c\U3e38663c
    \U3e65633c\U3e34653c\U3e61623c\U3e65653c\U3e37633c\U3e38663c
    \U3e64623c\U3e30663cţ\U3e37633c\U3e38663c
    \U3e34623c\U3e33663c\U3e32643c\U3e38643c\U3e66633c\U3e38643c
    \U3e36623c\U3e63623c\U3e64623c\U3e64613c\U3e31643c\U3e66643c\U3e61633c\U3e30643c
    \U3e31633c\U3e61663c\U3e62623c\U3e61613c\U3e30643c\U3e32633c\U3e37633c\U3e38663c

    第 1 条附言  ·  2016-03-08 01:42:58 +08:00
    以下为原始数据,谢谢大家关注
    http://paste.ubuntu.com/15322210/

    md5sum xxx.txt
    011bb699ddb1bbbea243bdc7b2e12e6f xxx.txt
    sha1sum xxx.txt
    50f24c727c9592e708e1515d30c24c34ed159dc2 xxx.txt
    21 条回复    2016-03-08 19:58:55 +08:00
    oxoxoxox
        1
    oxoxoxox  
       2016-03-07 20:38:10 +08:00 via iPhone
    也许是 utf32
    liemehoc
        2
    liemehoc  
    OP
       2016-03-07 20:54:31 +08:00
    @oxoxoxox 试了 utf16-be/le,utf32-be/le,都不是
    dangyuluo
        3
    dangyuluo  
       2016-03-07 21:18:23 +08:00
    表白暗语
    liemehoc
        4
    liemehoc  
    OP
       2016-03-07 21:26:38 +08:00
    @dangyuluo 不是的- -#
    ipconfiger
        5
    ipconfiger  
       2016-03-07 21:31:36 +08:00
    unicode 编码
    liemehoc
        6
    liemehoc  
    OP
       2016-03-07 22:09:43 +08:00
    @ipconfiger

    Python 2.7.9 (default, Mar 1 2015, 12:57:24)
    [GCC 4.9.2] on linux2
    Type "help", "copyright", "credits" or "license" for more information.
    >>> u"\U3e38623c"
    File "<stdin>", line 1
    SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-9: illegal Unicode character
    ipconfiger
        7
    ipconfiger  
       2016-03-07 22:17:34 +08:00
    @liemehoc 你把\后面的大写的 U 都改成小写就行了
    v1024
        8
    v1024  
       2016-03-07 22:23:52 +08:00
    8 位 hex 肯定不会是什么文字编码,这估计都可以把外太空的文字含进来了……

    楼主发的内容开头结尾很相似,所以考虑是显示错误或者程序自创的东西。
    congeec
        9
    congeec  
       2016-03-07 22:57:12 +08:00
    @ipconfiger 你试过?测试结果贴上来可好?

    楼主最好把整个文件贴上来大家看看
    ipconfiger
        10
    ipconfiger  
       2016-03-07 23:08:21 +08:00
    @congeec 试过, oc 里就是大写的 U, 经常这么干
    congeec
        11
    congeec  
       2016-03-07 23:28:33 +08:00 via iPad
    @ipconfiger 我说你现在能不能把搂住的字符串 decode 出来
    zxy
        12
    zxy  
       2016-03-07 23:35:24 +08:00 via iPhone
    要不要试试 4 位一转?/Uxxxxxxxx 转为 /uxxxx /uxxxx 手机就不实验了
    hx1997
        13
    hx1997  
       2016-03-07 23:39:19 +08:00
    开头和结尾的 3e 、 3c 都一样,中间是纯数字而没有字母,不知道能否说明什么。

    另外当成 ASCII 码解出来是:
    >ac<>0d<>fc<>7e<
    >db<>5f<>db<>da<>7c<>8f<
    >ec<>4e<>ab<>ee<>7c<>8f<
    >db<>0f<>7c<>8f<
    >4b<>3f<>2d<>8d<>fc<>8d<
    >6b<>cb<>db<>da<>1d<>fd<>ac<>0d<
    >1c<>af<>bb<>aa<>0d<>2c<>7c<>8f<
    ipconfiger
        14
    ipconfiger  
       2016-03-07 23:43:59 +08:00
    In [1]: print u"""\u3e61633c\u3e30643cֱϽ\u3e66633c\u3e37653c
    ...: \u3e64623c\u3e35663c\u3e64623c\u3e64613c\u3e37633c\u3e38663c
    ...: \u3e65633c\u3e34653c\u3e61623c\u3e65653c\u3e37633c\u3e38663c
    ...: \u3e64623c\u3e30663cţ\u3e37633c\u3e38663c
    ...: \u3e34623c\u3e33663c\u3e32643c\u3e38643c\u3e66633c\u3e38643c
    ...: \u3e36623c\u3e63623c\u3e64623c\u3e64613c\u3e31643c\u3e66643c\u3e61633c\u3e30643c
    ...: \u3e31633c\u3e61663c\u3e62623c\u3e61613c\u3e30643c\u3e32633c\u3e37633c\u3e38663c"""
    㹡633c㸰643cֱϽ㹦633c㸷653c
    㹤623c㸵663c㹤623c㹤613c㸷633c㸸663c
    㹥633c㸴653c㹡623c㹥653c㸷633c㸸663c
    㹤623c㸰663cţ㸷633c㸸663c
    㸴623c㸳663c㸲643c㸸643c㹦633c㸸643c
    㸶623c㹣623c㹤623c㹤613c㸱643c㹦643c㹡633c㸰643c
    㸱633c㹡663c㹢623c㹡613c㸰643c㸲633c㸷633c㸸663c
    zhujinliang
        15
    zhujinliang  
       2016-03-07 23:49:53 +08:00   ❤️ 1
    估计是误被当作 unicode 解释了,实际内容就是二进制的
    看十六进制数值, 3e 开头, 3c 结尾,中间差不多在一个范围内浮动,像是采集来的原始数据
    liemehoc
        16
    liemehoc  
    OP
       2016-03-08 00:02:37 +08:00
    @ipconfiger 小写是 4 位,按内容来看应该是 8 位的


    @v1024 应该不是错误,我猜是不是经过二次(误)编码的
    Esec
        17
    Esec  
       2016-03-08 00:15:30 +08:00 via Android
    替换 c\U3e 为空格之后当作 10 进制处理依旧得到了一堆不明方块...然后密文贴进 v2 编辑框的时候好像有 2 个字符莫名被转义了,不知道有没有可能拼凑一些其他的字符来绕过这里的防御 [x http://r12a.github.io/apps/conversion/
    liemehoc
        18
    liemehoc  
    OP
       2016-03-08 00:43:07 +08:00
    @congeec
    @v1024
    @zhujinliang
    @hx1997
    @zxy

    谢谢大家关注,这是其中一个字段的原始数据,从 R 导出的
    http://paste.ubuntu.com/15321788/


    sha1sum xx.txt
    9af8f13920275ac60fe509b20dd19534de555286 xx.txt
    md5sum xx.txt
    aae22b19e54267328ec79b61688bb6c2 xx.txt
    liemehoc
        19
    liemehoc  
    OP
       2016-03-08 00:47:04 +08:00
    @Esec 我把原始数据导出了 http://paste.ubuntu.com/15321788/
    liemehoc
        20
    liemehoc  
    OP
       2016-03-08 01:31:35 +08:00
    echo "QlpoNjFBWSZTWTIu7UgAH4d7/9AQAQBAAX+AACBgsR5gBUdFYA0/+38X6sfPAkQATGANvl8AAAAAAAAAAAAAAAAABqpsRD1ANGg2iAAAAA0AAAADmE0BoDRowjQYjTEyYmgwjQMgGTA5hNAaA0aMI0GI0xMmJoMI0DIBkwOYTQGgNGjCNBiNMTJiaDCNAyAZMBJKAiYh6nqZoIADI0DACGgAA00epgpKJKCp6npMgPUAAyGgAMgPUA0eob1NM1SIkmQyohgAU94JIHkDGMlSQgGQkhIBJmAQCB0nPM2m60WtNfTownzSouEbzkDijY0XXGxjHKRZQGORZJRMFIm5KG4cCCuFwwEBBFWEMhkx0osRX7tUh9yqo2wSq+8Iv2gmEXAiwE6IuZSHec5VUcULoJwT+AVL7YqwFX2xEvuAnQnQq4CrAqwq6IuihhUuCYUOBQworgqwq2BNUrYTKVhNVGzCLVVGwTCbKqNVGE0RJdFXBOCroRcqIlOCiuBSjCeCr2BPZUhgi4BVwRYRL2iJYKuCrAnAocFS7UU5yqOAq4qQ5uQVcEwUOhQwJgq4E6FWAmEqugTBVwFI6JT/GqlQnRFzzVC1VGFDggcCrwVLgqosFDonROCdEk5Cd1Ud0STVUcqhcqCjgRdBOCiuVESnBQ6JgqXBOCJbvRFqkOVGAmEXQE8UQUMIIdCrCJeCrCUwhRx5UhypVNxRTVC1UrbmE5UbtRqo0Jzgq6FWFDonAnQlVhFwVYUOgnQJ0TlR3QRaopwSnQi+7VQvcKsEp7QVaE1VK1UbCKnvEXROClK4JT3idFDgngqwoYRLBVgBNUh4CrcEDAJwTBJMCrBQwE8BPfUKE9tVQqe4TAJgE93KjVK2CcAmqQwq4oKNUhvfUrned7CU6Jqqo4JgTgq8AKl/4E/0FD9L3Aq94T8gFI+QRcCcCrAnBInROAToi4CrAnRVhVgRbaqNUYVUXAlNFXdVUcqOVSt0ToTgRcFWE4IlwVfgCL/gT8Aq/3FXRKfQKv8xPAE/CJ9Qq+wEqv/QVfOKvxCh9AT5agj8oRfZFXBUsEwmCYTChglVhUsEXAocE4FDlREpgnBFwFWEwqquChhAwTCpfQE+sT4BV/WKHtCfD6qlapDfAUPxVIfIif5Qi1SGCLCpYTao0SmqNUqJhNVFVhMCrBNUpbVFNhFhFhFgJoST56oqtVRzAmqhYJJqjAnOVRwJsE1RhUtgq/T4E+wIvnFXgoYJhNUhwSnAEwIuiroVYJVYE4KHzgq9gi4EXoBMKUehVglVueBFqjilapW3RF6Aq9CrlSl6CVWwodCB0UOCL0Il6E8FXBVgqXoTwIvqBPYKvmFDwJ7BQ9gi9gE4E9CeBFwQo9onoBOihwCeCdCYUPQi4Kl56wT1Uhu1FO8qjnKkPXKo755Uh2qleVHnO1UrgE3aj131UrvVIedUFHgmFDztVR52pXaqN5VHcqjvlR5lKXd2qqOeqqVgmqjVUdaqF3VHr1gTaqPWCeVFMoXEKvAlVhMBV4CrgnBRXoTVVCpwUj0JTlR4FXBVsCao8VRtqqjvITwFXBEsE6BMEwnKj0CaJ0CdBMFXgqwEwgdFDgkTYKtVUYJE0Ku1K9CreCdqA9CehVwCdCYRL3hPlE+UTglOBV9oRdCVXxKKlUfviqn2hKf/Ch8RQ7VUfSEwlPBVgEwQMBPwhKrCJcCYJVfEUPqFDon1Ch4KHxFDAnzCh80+FRToKthF7BMEWFDCkrBMIgwmfGqNVH4+cqSOVHRQ4IRgVfICr6RVwRLoAmEwoYRYKqYVYJVapVMJ8OVRVcCqmEpgJgTCoV7BPgE6EXRSMKuicCL6RMIuirJSjuATaqJNULVJC1VGAn4xVqgPfqoS+vRJPbUh2qqOCSc1Qu1K0UUvYCYFWFWqghYEwIvs1IcCU4E+ITgVcEpgE9wVYFXydqUGqjQnAQMKpMFWAn8QVcFX9QToTgSmiU9aqjVC4FI4KRgoYQo/OCLAIuCLAmFWCdCVX1hFyFXxE0KvcJlKS//F3JFOFCQMi7tSAA==" | base64 -d | tar -jxv

    md5sum xxx.txt
    011bb699ddb1bbbea243bdc7b2e12e6f xxx.txt
    sha1sum xxx.txt
    50f24c727c9592e708e1515d30c24c34ed159dc2 xxx.txt

    重新整理了一下,原始数据以此为准
    @Esec
    @zhujinliang
    @ipconfiger
    @hx1997
    @zxy
    @congeec
    @v1024
    Esec
        21
    Esec  
       2016-03-08 19:58:55 +08:00
    @liemehoc ww3.sinaimg.cn/large/5b46d601gw1f1pp3dzgt6j20sg0lcai9.jpg 手残直接 sort|uniq 了一下得到两个 gb2312 编码的地名和一列相同编码的单个汉字,百度搜索出一些有关快递单的结果...然后用 cygwin 处理才会有这种奇怪的效果...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1131 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 22:51 · PVG 06:51 · LAX 14:51 · JFK 17:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.