写个脚本,递增 url 爬别的网站,算违反 robots 吗?

2014-07-09 20:10:15 +08:00
 qiongqi
比如某网站的robots.txt为
User-agent: *
Allow: /
它的某类页面的url是有规律的,为 http://abchost/detail/123
我从1到100000遍历爬这类页面,算违反robots吗?
6733 次点击
所在节点    问与答
72 条回复
qiongqi
2014-07-10 00:32:56 +08:00
@Livid 抱歉,我刚看到的时候,下意识的就说是个bug,确实不谨慎。
之前浏览的时候没有注意过楼号,只是顺着浏览的,这次是因为自己提问,看到回复比较敏感。
最近写了一堆phpunit的东西测自己新写的功能,有一个测到的bug就是删spam内容后,计数表内没有-1,所以就下意识的以为在v2ex遇到了同样的bug了,没有任何幸灾乐祸的意思。。
yangqi
2014-07-10 00:34:13 +08:00
@Livid 我说的是只有提示,不加点开的按钮啊。既然隐藏了,加个点开的按钮确实没必要。
shiniv
2014-07-10 00:34:14 +08:00
话说 跟话题扯的有点远了把- -!
yfdyh000
2014-07-10 00:36:14 +08:00
@qiongqi 只要网站没有禁止索引,通常来说这都没有问题,哪怕它是个孤岛页面。就如同很多因被索引而泄漏数据的案例一样,通常不认为这是蜘蛛的错,信息安全是网站的责任。
另外,Google等蜘蛛估计也会猜测连续的索引参数,例子: http://webmasters.stackexchange.com/questions/25560/does-the-google-crawler-really-guess-url-patterns-and-index-pages-that-were-neve
Livid
2014-07-10 00:48:30 +08:00
以后大家在面试产品设计人员的时候,可以把这个帖子作为一个案例让被面试者谈谈自己的想法。

这是一个没有答案的开放问题。

我所说的,可能全是错的。
abscon
2014-07-10 05:44:00 +08:00
@Livid 可以考虑放个“我偏要看”的功能,但是要扣钱,扣很多钱。
ine181x
2014-07-10 07:36:24 +08:00
同意 @livid 的设计 遵从所谓的用户习惯和完美的交互就不会有现在的v2ex网站了
riophae
2014-07-10 07:45:12 +08:00
我同意 @Livid 的设计. 允许用户去查看被折叠的消息纯粹是浪费时间.
因为很多人都有类似 "偷窥" 的癖好, 想要看看那些一般情况下看不到的东西. 所以只要允许用户查看, 那么一定会有很多很多用户故意去点的. 这真的浪费时间.
a154312237
2014-07-10 08:08:24 +08:00
彻底歪了...
alexkh
2014-07-10 09:15:00 +08:00
@qiongqi 不会发现。除非站长通过各种方式将这个页面展示出来,否则将永远不会被发现。
搜索引擎也面临这个难题,所以提供了sitemap等多种形式,去接触这些孤岛页面。
Shieffan
2014-07-10 09:20:53 +08:00
我也不知道2楼是谁 --
decken
2014-07-10 09:25:15 +08:00
@riophae 每次我都会点知乎的折叠, 神回复的聚居地. 躺枪了
belin520
2014-07-10 09:28:00 +08:00
楼歪了
(我会不会被block掉?)
jsjscool
2014-07-10 09:52:52 +08:00
@livid 的观点我再赞同不过,如果为了一些花活功能对UI做大改造,完全就是扯淡。
就好比在网站加个天气显示,加个时钟。用户是觉得好啊,多方便。加了之后其实没多大用(只是举个例子)
dong3580
2014-07-10 09:56:43 +08:00
@qiongqi
这样我可不可以理解你的页面相当于查询数据库,每个页面对应id号就是查询标识。
如果专门做该站的爬虫的话,我会可能根据大略规律爬出来,那么你这个555页面数据也出来的。
大型搜索引擎应该对常用的链接形式都有关注吧?感觉可以出来的样式。
我之前见到一个简单的网站,有个页面没有任何链接,但是在百度上搜这个网站名的时候出来的正是这个页面。
dasher
2014-07-10 10:44:17 +08:00
这是livid的论坛,充斥着其自己的意志以及权力。如果不喜欢其人的做事方式,或许也只能无视或者离开。
saybye
2014-07-10 10:45:42 +08:00
歪了。。。
phyng
2014-07-10 11:29:20 +08:00
Livid
2014-07-10 11:38:15 +08:00
@dasher 你这句话已经没有什么新意了,我听过无数遍了,你们能不能有点创意?
imn1
2014-07-10 12:05:09 +08:00
@Livid 2楼结合LZ头像倒是很正常的
这个适合私信PM,其实我现在还不知道V2EX怎么发PM?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/121819

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX