想到一个专治 spider 不守规矩的方法

2015-01-18 12:11:27 +08:00

14ly

看到了http://www.v2ex.com/t/162904
对付这种情况，可以采用的方法是为爬虫建立专用页面，返回垃圾信息。

但是我才不会做这么损人不利己的事情

明明可以借助这个特性搭建自己的私人查询库么

./robots.txt：
User-agent: * Disallow: /shegongku/

./shegongku/index.html:
//在这里把各种需要查询又不想浪费自己服务器资源的索引 //建议加密

使用时

直接http://www.haosou.com/s?q=site:{yourhost} inurl:shegongku {yourkeyword}

4275 次点击

所在节点

奇思妙想

10 条回复

vibbow

2015-01-18 12:18:32 +08:00

然后你就被K站了。

14ly

2015-01-18 12:20:56 +08:00

@vibbow K就K，反正我的./robots.txt里已经写了不容许访问，这样不守规矩的爬虫K了才好

vibbow

2015-01-18 12:23:11 +08:00

@14ly 如果我没记错的话，Disallow了后并不是说蜘蛛就不会爬了
Google之类的还是会爬的，然后分析外链，只是不会索引其中的内容而已。
（好像还是会索引Title的）

vibbow

2015-01-18 12:25:59 +08:00

However, robots.txt Disallow does not guarantee that a page will not appear in results: Google may still decide, based on external information such as incoming links, that it is relevant. If you wish to explicitly block a page from being indexed, you should instead use the noindex robots meta tag or X-Robots-Tag HTTP header. In this case, you should not disallow the page in robots.txt, because the page must be crawled in order for the tag to be seen and obeyed.

14ly

2015-01-18 12:31:33 +08:00

@vibbow 还真是，要添加<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">或者X-Robots-Tag HTTP header，想要试验的同学注意了。
另外我找不到append了，翻了一下自己以前发过的帖子，明明有append

imn1

2015-01-18 13:05:50 +08:00

防君子不妨小人
如果我本身就不打算遵守什么协议的话，我一定会这样做：
做个浏览器，用户访问什么 url 都返回服务器（某公司好像就是这样），然后服务器整合信息，用户就是爬虫

9hills

2015-01-18 13:50:55 +08:00

天真，都会有一个守规矩的爬虫和一个不守规律的专爬disallow的爬虫的，只是后者不展示而已

honeycomb

2015-01-18 15:50:00 +08:00

强制要求登陆？
设定UA限制？

jilaoduizhang

2015-01-19 16:36:25 +08:00

@14ly 同感 (●'◡'●)

lfeng

2015-01-20 13:31:05 +08:00

robots.txt 本身就只是一个君子协定，国产爬虫几乎没有遵守的各种照爬不误，真不想他们爬只能根据UA定向输出内容

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/163172

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.