python 中怎么判断编码的兼容性?

2016-10-05 18:10:30 +08:00
 vtoexsir

在 python 中,strjoin=str1+str2,如果 str1(ascii 编码)和 str2(utf-8 编码)的编码方式不一致,比如,那么 strjoin 将是个'奇怪的字符串',自身就有两种不同的编码. 这种情况往往导致 strjoin 显示为乱码. 在 ruby 中,当执行 strjoin=str1+str2 时,ruby 会检验 str1 编码和 str2 的编码,以及这两个编码是否兼容(例如,utf-8 编码就可以兼容 ascii 编码),如果兼容,就统一使用兼容性的编码作为 strjoin 的编码. 检查编码兼容性的伪代码如下:

Encoding.compatible?(coding1, coding2)

如果 coding1 兼容 coding2 编码,则返回 coding1;如果 coding2 兼容 coding1,则返回 coding2;如果 coding1 和 coding2 没有兼容性,则返回 false.

我想问的是,python 中是否有类似的方法或者模块,来检查编码的兼容性? 多谢!

2527 次点击
所在节点    Python
7 条回复
jimzhong
2016-10-05 18:44:21 +08:00
python3 里面 str 采用 unicode 存储,不存在编码问题。
binux
2016-10-05 18:53:59 +08:00
这是一个 xy 问题,你理解错了
1. python 中(我理解你使用的 python2 ) str 是 bytes 类型,对编码无感知。
2. ascii 是 utf8 的子集,即使 strjoin ,也不存在两种不同的编码一说
3. 显示为乱码,与「编码兼容」无关。而是你终端编码和输出编码不同。
ethego
2016-10-05 19:09:45 +08:00
这和 Python 对编码的处理无关, utf8 本来就是兼容 ascii 的,单纯的拼接不会造成乱码
gdsing
2016-10-05 21:23:58 +08:00
楼主举了一个不是太好的例子,根据楼主的意思,提供:

str1 = u'中文'.encode('gbk')

str2 = u'中文'.encode('utf-8')

print str1 + str2
����中文
justou
2016-10-05 21:35:53 +08:00
没有任何有效算法来判断字符串的编码。可以使用统计的方法估计编码,比如 chardet ,既然是统计,那对小样本几乎是无效的。同理,要判断两个较短的字符串是否为相同编码不大可能。如果有有效方法请纠正我。
billlee
2016-10-05 22:00:38 +08:00
先把 str(py2)/bytes(py3k) decode 成 unicode(py2)/str(py3k), 再拼接
haoc
2016-10-06 04:38:40 +08:00
print 乱码可能是 console 自己不支持。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/310704

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX