如何比较靠谱地判断一段文本的编码格式

2013-12-13 15:30:44 +08:00

finian

有一段文本，编码未知，需要尽量解码出文本内容而不出现乱码，目前只要求中文不出现乱码即可，有什么靠谱的方法没？尝试用了ICU库（http://site.icu-project.org/），发现判断不是特别准确。

2697 次点击

所在节点

程序员

2 条回复

cute

2013-12-13 15:48:19 +08:00

python下我使用的chardet.
效果还不错.

scalaview

2013-12-13 17:55:13 +08:00

chardet+1

>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/93028

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.