小白问个爬虫问题

2018-07-18 18:02:45 +08:00
 frmongo
想爬点 ZOL 的手机数据,看到 http://detail.zol.com.cn/robots.txt 上面似乎限制爬虫爬取
Disallow: https://detail.zol.com.cn/*

我理解,这样爬虫就无法访问产品数据了?这怎么办呢?有什么变通方法可以爬取。
2703 次点击
所在节点    Python
16 条回复
Ethanp
2018-07-18 18:05:56 +08:00
你都知道看 robots 了不小白了
alvin666
2018-07-18 18:07:57 +08:00
悄悄,慢慢地爬,自己用,或者换网站。
人家不让你爬,无解
xpresslink
2018-07-18 18:08:27 +08:00
那个 robots.txt 主要是给搜索引擎来指引的。和你没有什么关系。
geekcorn
2018-07-18 18:09:33 +08:00
robots.txt 只是对搜索引擎爬虫的建议性限制吧,理论上正常用户在客户端浏览器能看到什么,操作什么,机器就可以做到什么
b821025551b
2018-07-18 18:11:01 +08:00
robots.txt 只是君子协议。。。就比如你家门开着,贴张纸,写着小偷别进来,小偷就真不进了么。。。
0x5f
2018-07-18 18:12:02 +08:00
伪造正常浏览器 ua 啊
liupanhi
2018-07-18 18:17:23 +08:00
你确实是小白,哈哈哈
frmongo
2018-07-18 18:19:08 +08:00
@liupanhi 给小弟指点下嘛,别只一笑而过
dcalsky
2018-07-18 18:25:39 +08:00
@frmongo 你发 http request 的时候,把 header 里的 user-agent 字段改成其他的。
dcalsky
2018-07-18 18:29:00 +08:00
@frmongo 但是其实也不用做任何多余的事情,因为 robotstxt 只是一个声明,遵不遵守全看写爬虫人的意思。
arctanx
2018-07-18 19:00:46 +08:00
楼主很有节操 233
ml1344677
2018-07-18 19:04:21 +08:00
破坏计算机信息罪了解一下 23333
musclepanda
2018-07-18 20:52:17 +08:00
你用 scrapy 的? scrapy 在设置文件里面设置下就好了,有一个 Allow_robots 这样的设定,关了就好
frmongo
2018-07-19 10:42:01 +08:00
@arctanx 哈哈
frmongo
2018-07-19 10:42:15 +08:00
@ml1344677 我擦...
frmongo
2018-07-19 10:43:10 +08:00
@musclepanda 我用的 python2 的 request,写了个很简单的,伪装成 360 的 agent,可以用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/472076

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX