scrapy 的 CrawlSpider 爬取全站,遇到干扰怎么破?

2017-06-02 09:23:55 +08:00
 zhangzixu

比如我要爬取的网站是 https://xxx.com,在 log 信息中看到得到的网页有很多 https://xxx.com?mdtp=30&p=8+++++++++++++++++++ 而且+号是不断的增加的,网站返回的是同一个页面。使用 linkExtractor 去过滤吗?

3230 次点击
所在节点    Python
8 条回复
prasanta
2017-06-02 09:28:07 +08:00
把它处理掉
KeepPro
2017-06-02 09:29:54 +08:00
这说明人家并不想让你爬
734506700qq
2017-06-02 09:36:25 +08:00
啥网站啊,这么溜,这个反爬虫机制真 low
zhangzixu
2017-06-02 09:54:24 +08:00
@734506700qq 高校的,哈哈
cranelee13
2017-06-02 10:21:46 +08:00
用正则过滤链接吧,很好解决。
bonfy
2017-06-02 11:46:11 +08:00
又见 xxx.com ...
zhangzixu
2017-06-02 12:02:14 +08:00
@bonfy 真的有内容呀!
luxux
2018-05-29 16:25:17 +08:00
上班打开 xxx.com,旁边连个妹子,让我情以何堪

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/365370

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX