python自带的urllib2库写的
opener = urllib2.build_opener(urllib2.HTTPRedirectHandler(), urllib2.HTTPCookieProcessor())
webpage = opener.open(url)
html = webpage.read()
webpage.close()
print html
1. 有的时候可以抓到html代码,但是显示乱码,gbk,gb2312,utf-8都试过了。chardet 也用过,检测出来居然是windows-XXXX。这是什么问题??
用selenium抓每次都可以正常显示,不存在乱码和抓不到的情况
2. 有的时候代码抓不到,返回 Errno 10054
user-agent也修改过,换了各种浏览器的,不行的时候还是不行
增加其他字段也是一样
3. 用httplib,代码如下
c = httplib.HTTPConnection('
www.360buy.com')
html = c.getresponse().read()
print html
print len(html)
显示 一个字符的乱码,但是长度居然有16201!?
有的时候返回502 bad gateway 的html代码!?
求大神搭救!!!!!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/61149
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.