我用这段代码来获取网站的头信息,用来判断网页的文字编码,
import urllib.request
f = urllib.request.urlopen('
http://www.163.com')
print (
f.info())
能够识别出网易的文字编码是 GBK ,显示:
Content-Type: text/html; charset=GBK
但是换成了中华网时在头信息里就没有了文字编码信息,这是怎么回事呢?
如果不用 urllib.request 的 info(),其他的还有什么方法能够获得网站的文字编码?
对了,我用的是 python3.4 ,我知道在 python2 中可以使用 chardet 库,但现在还没有 chardet 的 3 版本。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/267485
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.