大家好,我在爬去一个中文网页的时候碰到了乱码的问题,试了很久都没成功,请帮我看下问题出在哪里?
网址: http://www.duxieren.com/shanghaishuping/201511.shtml
编码: UTF-8
系统: windows 7
Python 版本: 3
目标: 爬取文章列表
症状:能爬取,但是 print 出来之后全乱码,, 也尝试了了加 encoding = GBK 之类的参数但是无效,
请帮我看看问题出在哪里,多谢了
代码如下
import requests, bs4
web = requests.get('http://www.duxieren.com/shanghaishuping/')
soup = bs4.BeautifulSoup(web.text,"html.parser")
page = soup.findAll('a',{'class':'archive_article'})
for i in page:
print(i.get_text())
网址: http://www.duxieren.com/shanghaishuping/201511.shtml
编码: UTF-8
系统: windows 7
Python 版本: 3
目标: 爬取文章列表
症状:能爬取,但是 print 出来之后全乱码,, 也尝试了了加 encoding = GBK 之类的参数但是无效,
请帮我看看问题出在哪里,多谢了
代码如下
import requests, bs4
web = requests.get('http://www.duxieren.com/shanghaishuping/')
soup = bs4.BeautifulSoup(web.text,"html.parser")
page = soup.findAll('a',{'class':'archive_article'})
for i in page:
print(i.get_text())