如何比较靠谱地判断一段文本的编码格式

2013-12-13 15:30:44 +08:00
 finian
有一段文本,编码未知,需要尽量解码出文本内容而不出现乱码,目前只要求中文不出现乱码即可,有什么靠谱的方法没?尝试用了ICU库(http://site.icu-project.org/),发现判断不是特别准确。
2630 次点击
所在节点    程序员
2 条回复
cute
2013-12-13 15:48:19 +08:00
python下我使用的chardet.
效果还不错.
scalaview
2013-12-13 17:55:13 +08:00
chardet+1

>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/93028

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX