qq.com的编码到底是那种?

2011-12-28 10:29:48 +08:00
 args
html源代码里写的是charset=gb2312,我用python的chinese编码不能正常解码,但用gbk可以。

而且我看到http的返回头
Content-Type: text/html; charset=GB2312

也是标的2312。


所以页面里是不是用了gb2312的超集?这样的话难道浏览器会自动用gbk解码?
4932 次点击
所在节点    问与答
4 条回复
jakepg
2011-12-28 10:33:41 +08:00
python 使用 chardet 来检测编码。当然,在你的例子里面有点得不偿失。嗯,使用 requests 来 get http://www.qq.com 页面毫无压力。requests 值得你尝试。
keakon
2011-12-28 16:50:07 +08:00
gbk本来就是gb2312的超集
bullock
2011-12-28 16:55:47 +08:00
正在看这个,或许对你有用
http://ued.taobao.com/blog/2011/08/26/encode-war/
args
2011-12-28 18:41:36 +08:00
@bullock
这个赞

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/24496

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX