有意思,我昨天刚纠结了这个问题。
unicode-escape 先 encode()然后按照字面 escape 一次。
In [32]: "中国".encode('unicode-escape')
Out[32]: b'\\u4e2d\\u56fd'
In [33]: "中国".encode()
Out[33]: b'\xe4\xb8\xad\xe5\x9b\xbd'
In [34]: len(b'\\u4e2d\\u56fd')
Out[34]: 12
所以你的 r'\u4e2d'.encode('unicode-escape') 实际上是这样:
In [36]: r'\u4e2b'.encode()
Out[36]: b'\\u4e2b'
先 encode()的到了 b'\\u4e2b' , 这个时候得到 6 个 byte, \ u 4 e 2 b,注意只有一个 \ ,前面一个是转义用的。
再按照字面意思就是 \ \ u 4 e 2 b 一共 7 个字符对吧。前面转义的 \ 也被按照字面解释成了一个 \ 。
第一个问题回答完毕。
-----------------------------------
解码问题:
解码的时候,unicode-escape 可能将多个 byte 解释成一个,例如
对于 b'\\\\u4e2d' escape 这一步变成 \\u4e2d,从 7 个字符变成了 6 个。
对于 b'\u005c\u0075\u0034\u0065\u0032\u0064' , 从 36 个变成了 6 个。
再啰嗦一点,前者, 第一个 \ 转义了第二个 \ 结束了。 后者第一个 \ 转义了 u 继续向后直到 \u005c 被解释成 1 个字符。
所以两者 decode('unicode-escape')的结果是一样的。
昨天的帖子:
https://www.kawabangga.com/posts/2767