1
imn1 2018-03-01 11:46:49 +08:00
你比较一下这个
r'\u4e2d'.encode('raw_unicode_escape') 然后再看看文档,搞清楚 unicode_escape 的行为是什么 |
2
scriptB0y 2018-03-01 11:47:51 +08:00 1
有意思,我昨天刚纠结了这个问题。
unicode-escape 先 encode()然后按照字面 escape 一次。 In [32]: "中国".encode('unicode-escape') Out[32]: b'\\u4e2d\\u56fd' In [33]: "中国".encode() Out[33]: b'\xe4\xb8\xad\xe5\x9b\xbd' In [34]: len(b'\\u4e2d\\u56fd') Out[34]: 12 所以你的 r'\u4e2d'.encode('unicode-escape') 实际上是这样: In [36]: r'\u4e2b'.encode() Out[36]: b'\\u4e2b' 先 encode()的到了 b'\\u4e2b' , 这个时候得到 6 个 byte, \ u 4 e 2 b,注意只有一个 \ ,前面一个是转义用的。 再按照字面意思就是 \ \ u 4 e 2 b 一共 7 个字符对吧。前面转义的 \ 也被按照字面解释成了一个 \ 。 第一个问题回答完毕。 ----------------------------------- 解码问题: 解码的时候,unicode-escape 可能将多个 byte 解释成一个,例如 对于 b'\\\\u4e2d' escape 这一步变成 \\u4e2d,从 7 个字符变成了 6 个。 对于 b'\u005c\u0075\u0034\u0065\u0032\u0064' , 从 36 个变成了 6 个。 再啰嗦一点,前者, 第一个 \ 转义了第二个 \ 结束了。 后者第一个 \ 转义了 u 继续向后直到 \u005c 被解释成 1 个字符。 所以两者 decode('unicode-escape')的结果是一样的。 昨天的帖子: https://www.kawabangga.com/posts/2767 |