小白问个爬虫问题

想爬点 ZOL 的手机数据，看到 http://detail.zol.com.cn/robots.txt 上面似乎限制爬虫爬取
Disallow: https://detail.zol.com.cn/*

我理解，这样爬虫就无法访问产品数据了？这怎么办呢？有什么变通方法可以爬取。

Ethanp

2018-07-18 18:05:56 +08:00

你都知道看 robots 了不小白了

alvin666

2018-07-18 18:07:57 +08:00

悄悄，慢慢地爬，自己用，或者换网站。
人家不让你爬，无解

xpresslink

2018-07-18 18:08:27 +08:00

那个 robots.txt 主要是给搜索引擎来指引的。和你没有什么关系。

geekcorn

2018-07-18 18:09:33 +08:00

robots.txt 只是对搜索引擎爬虫的建议性限制吧，理论上正常用户在客户端浏览器能看到什么，操作什么，机器就可以做到什么

b821025551b

2018-07-18 18:11:01 +08:00

robots.txt 只是君子协议。。。就比如你家门开着，贴张纸，写着小偷别进来，小偷就真不进了么。。。

frmongo

2018-07-18 18:19:08 +08:00

@liupanhi 给小弟指点下嘛，别只一笑而过

dcalsky

2018-07-18 18:25:39 +08:00

@frmongo 你发 http request 的时候，把 header 里的 user-agent 字段改成其他的。

dcalsky

2018-07-18 18:29:00 +08:00

@frmongo 但是其实也不用做任何多余的事情，因为 robotstxt 只是一个声明，遵不遵守全看写爬虫人的意思。

ml1344677

2018-07-18 19:04:21 +08:00

破坏计算机信息罪了解一下 23333

musclepanda

2018-07-18 20:52:17 +08:00

你用 scrapy 的？ scrapy 在设置文件里面设置下就好了，有一个 Allow_robots 这样的设定，关了就好

frmongo

2018-07-19 10:43:10 +08:00

@musclepanda 我用的 python2 的 request，写了个很简单的，伪装成 360 的 agent,可以用

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.