写个脚本,递增 url 爬别的网站,算违反 robots 吗?

2014-07-09 20:10:15 +08:00
 qiongqi
比如某网站的robots.txt为
User-agent: *
Allow: /
它的某类页面的url是有规律的,为 http://abchost/detail/123
我从1到100000遍历爬这类页面,算违反robots吗?
6742 次点击
所在节点    问与答
72 条回复
msg7086
2014-07-09 20:12:16 +08:00
不算。Allow: / 了。但是别爬太过火把人机器搞挂了。
fclql
2014-07-09 20:12:43 +08:00
LZ你女朋友也戴眼镜吗?
qiongqi
2014-07-09 20:20:50 +08:00
@Livid 计数bug了,我看到两个回复,然后进来只有1个
msg7086
2014-07-09 20:21:42 +08:00
2楼被删了或者折叠了。
qiongqi
2014-07-09 20:22:03 +08:00
还有个疑惑是:
如果 http://abchost/detail/555 从来没有出现在其它页面的href里,搜索引擎会抓到这个页面吗?
Livid
2014-07-09 20:27:11 +08:00
V2EX 有个功能叫 block,如果你 block 其他人,你就看不到他的回复了。这不是 bug,OK?
alexkh
2014-07-09 20:32:07 +08:00
User-agent: *
Allow: /
意思是所有的UA,允许抓取所有页面。

另外,自己的爬虫也不用都遵守这种规则吧。
kennedy32
2014-07-09 20:34:34 +08:00
奇怪,也不知道2楼是谁,我也看不到
msg7086
2014-07-09 20:35:44 +08:00
@Livid 我没有block任何人,不过我看不到2楼哦。所以我第一反应是折叠了。
mkeith
2014-07-09 20:35:58 +08:00
难道2楼这么遭人Block啊,我也看不见啊.
Livid
2014-07-09 20:36:45 +08:00
我可以看到,不过是一条毫无意义的灌水。估计是被其他管理员 hide 了。
1994S
2014-07-09 20:38:24 +08:00
我也看不见-_-a
ChiangDi
2014-07-09 20:39:50 +08:00
我一个人都没Block也没看到。
dong3580
2014-07-09 20:48:46 +08:00
这个应该没问题吧,不算违反robots协议。试试先访问一下协议内容再过滤抓。
——
我也看不到,表示我没block任何人。难不成二楼复读了一楼的了?
txlty
2014-07-09 20:48:48 +08:00
你个小脚本装什么蜘蛛。。
Livid
2014-07-09 20:51:44 +08:00
@mkeith
@dong3580
@ChiangDi
@1994S
@msg7086
@kennedy32
@qiongqi

你们觉得这样的 2 楼应该被处理么?

msg7086
2014-07-09 20:56:31 +08:00
@Livid Nice job! (话说我还是刚注意到LZ的头像
arcas
2014-07-09 21:07:17 +08:00
竟然还有其他管理员。。
jeansfish
2014-07-09 21:28:56 +08:00
啊,见到管理员的世界了。
歪楼不算灌水吧(事实上已经歪了
======================
楼主要爬V2EX吗?
dong3580
2014-07-09 22:25:52 +08:00
@Livid
这。。。也太水了。。。
这歪楼歪的,

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/121819

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX