python 中怎么判断编码的兼容性?

在 python 中,strjoin=str1+str2,如果 str1(ascii 编码)和 str2(utf-8 编码)的编码方式不一致,比如,那么 strjoin 将是个'奇怪的字符串',自身就有两种不同的编码. 这种情况往往导致 strjoin 显示为乱码. 在 ruby 中,当执行 strjoin=str1+str2 时,ruby 会检验 str1 编码和 str2 的编码,以及这两个编码是否兼容(例如,utf-8 编码就可以兼容 ascii 编码),如果兼容,就统一使用兼容性的编码作为 strjoin 的编码. 检查编码兼容性的伪代码如下:

Encoding.compatible?(coding1, coding2)

如果 coding1 兼容 coding2 编码,则返回 coding1;如果 coding2 兼容 coding1,则返回 coding2;如果 coding1 和 coding2 没有兼容性,则返回 false.

我想问的是,python 中是否有类似的方法或者模块,来检查编码的兼容性? 多谢!

binux

2016-10-05 18:53:59 +08:00

这是一个 xy 问题，你理解错了
1. python 中（我理解你使用的 python2 ） str 是 bytes 类型，对编码无感知。
2. ascii 是 utf8 的子集，即使 strjoin ，也不存在两种不同的编码一说
3. 显示为乱码，与「编码兼容」无关。而是你终端编码和输出编码不同。

gdsing

2016-10-05 21:23:58 +08:00

楼主举了一个不是太好的例子，根据楼主的意思，提供：

str1 = u'中文'.encode('gbk')

str2 = u'中文'.encode('utf-8')

print str1 + str2
��中文

justou

2016-10-05 21:35:53 +08:00

没有任何有效算法来判断字符串的编码。可以使用统计的方法估计编码，比如 chardet ，既然是统计，那对小样本几乎是无效的。同理，要判断两个较短的字符串是否为相同编码不大可能。如果有有效方法请纠正我。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/310704

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.