python自带的urllib2库写的
opener = urllib2.build_opener(urllib2.HTTPRedirectHandler(), urllib2.HTTPCookieProcessor())
webpage = opener.open(url)
html = webpage.read()
webpage.close()
print html
1. 有的时候可以抓到html代码,但是显示乱码,gbk,gb2312,utf-8都试过了。chardet 也用过,检测出来居然是windows-XXXX。这是什么问题??
用selenium抓每次都可以正常显示,不存在乱码和抓不到的情况
2. 有的时候代码抓不到,返回 Errno 10054
user-agent也修改过,换了各种浏览器的,不行的时候还是不行
增加其他字段也是一样
3. 用httplib,代码如下
c = httplib.HTTPConnection('www.360buy.com')
html = c.getresponse().read()
print html
print len(html)
显示 一个字符的乱码,但是长度居然有16201!?
有的时候返回502 bad gateway 的html代码!?
求大神搭救!!!!!
opener = urllib2.build_opener(urllib2.HTTPRedirectHandler(), urllib2.HTTPCookieProcessor())
webpage = opener.open(url)
html = webpage.read()
webpage.close()
print html
1. 有的时候可以抓到html代码,但是显示乱码,gbk,gb2312,utf-8都试过了。chardet 也用过,检测出来居然是windows-XXXX。这是什么问题??
用selenium抓每次都可以正常显示,不存在乱码和抓不到的情况
2. 有的时候代码抓不到,返回 Errno 10054
user-agent也修改过,换了各种浏览器的,不行的时候还是不行
增加其他字段也是一样
3. 用httplib,代码如下
c = httplib.HTTPConnection('www.360buy.com')
html = c.getresponse().read()
print html
print len(html)
显示 一个字符的乱码,但是长度居然有16201!?
有的时候返回502 bad gateway 的html代码!?
求大神搭救!!!!!