爬虫遇到脏数据,无法解码,有什么办法吗?

2017-11-07 16:11:20 +08:00
 liudaqi
爬腾讯新闻的数据,频率稍微高一点,就收到脏数据了。我猜应该是被故意污染了,频率低的时候,收到的数据是正常可以解码的,稍微高一点,就无法解码了。可以随便试试:

http://society.qq.com/a/20171106/002159.htm
2105 次点击
所在节点    问与答
3 条回复
golmic
2017-11-07 16:23:22 +08:00
详细点,什么数据无法解码?这样放个网址我也看不出什么来啊,详细点我帮你看看
liudaqi
2017-11-07 16:40:25 +08:00
@golmic 现在反复请求,又不出错了。奇怪,前面就是收到一堆数据,然后 gb2312 解不出来
asuraa
2017-11-08 08:49:24 +08:00
根据页面解码啊 页面上 utf8 就用 utf8 gbk 就用 gbk

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/404339

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX