写个脚本,递增 url 爬别的网站,算违反 robots 吗?

2014-07-09 20:10:15 +08:00
 qiongqi
比如某网站的robots.txt为
User-agent: *
Allow: /
它的某类页面的url是有规律的,为 http://abchost/detail/123
我从1到100000遍历爬这类页面,算违反robots吗?
6742 次点击
所在节点    问与答
72 条回复
tomnee
2014-07-10 12:40:14 +08:00
@Livid 你实在是很有趣. dasher这个账号已经登陆不上去了。你的行为正好应证了我所说的。看不出我哪里有用秽语侮辱你,本身对你看法很中性。现在算是明白为什么有人要黑你。随便封号,就是你所谓做有趣的事情么。你技术能力和对其的态度让人向往,你的这种小心眼偏执不会让人觉得难相处么?
Livid
2014-07-10 12:43:51 +08:00
@tomnee 你要黑的话,应该找个媒体,写点更长的,有逻辑的东西来狠狠黑。坚持黑,黑到有人给你钱为止。
Livid
2014-07-10 12:47:56 +08:00
@tomnee 连黑我都要专门注册一个小号,这种玻璃心还想能黑到人?等你工作几年你再回来看你在这里说的这些话吧。
imn1
2014-07-10 12:57:01 +08:00
我觉得搜索引擎理论上是能爬都爬的,只是在遇到黑白名单才“特殊”处理,至于怎么处理还是爬虫自己定的准则,一般情况下,爬了而不发布或者遇到黑名单就不爬
peartail
2014-07-10 13:04:47 +08:00
您所说的“孤岛”,搜索引擎用常规方法是找不到的。

但有很多非常规方法可以帮助搜索引擎发现这个链接,例如,把用户浏览器里的网址发回给搜索引擎。这昂没如果用户访问了这个孤岛,搜索引擎也知道了这个孤岛的存在。
tomnee
2014-07-10 13:19:26 +08:00
@Livid …… 你怎么又在印证我所说的。我真没想黑你,你不值得我去所谓的黑。看把你气的。到底是谁玻璃心? 专门注册?那个号是上个月注册的。不要逃避话题好吗?因为一句话你看着不爽封号是事实。得,还真是不用交流了。您去做您的事吧。我真没那么无聊专门去黑你。还什么写文章,真说的出口。你都快30的人了,怎么这么沉不住气?说些有反对性质的话就是黑你?你也太以自己为中心了。你要不要在你所有看到的资料上加一个过滤器?抱歉楼主,污染了你的贴。
Livid
2014-07-10 13:27:01 +08:00
@tomnee 那个账号的第一个回复就是上来说这么一句,你那么有种的话怎么不直接用你的大号发呢?
tomnee
2014-07-10 13:44:06 +08:00
@Livid 随机登罢了,没有您有种。您可完全封掉我。好了,真没必要争论了,我的原意只是觉得你与会员讨论的语气不怎么好,不知道你这么有攻击性。我没有兴趣去专门指责你。我也只是评论罢了。您也不用继续含沙射影发贴发推。欣赏您审慎对产品的态度。只是咱们别在歪楼了。去做您有趣的事吧,别浪费时间在回帖上面。天热,注意消暑 :)
mkeith
2014-07-10 14:54:40 +08:00
GFW也是这么想的,帮我们Block了好多的东西.
ctsed
2014-07-10 15:04:01 +08:00
如果不喜欢其人的做事方式,或许也只能无视或者离开。
按这个逻辑来看行动,这哪里是黑,明明是真爱啊 233
mhycy
2014-07-10 15:25:25 +08:00
只能说任何一个网络社区都是管理员的社区。。。。
有谁反对么?请给出反例~
oldcai
2014-07-10 21:25:49 +08:00
@Livid Some people's idea of free speech is that they are free to say what they like, but if anyone says anything back, that is an outrage.
—— Winston Churchill

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/121819

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX