看到了http://www.v2ex.com/t/162904
对付这种情况,可以采用的方法是为爬虫建立专用页面,返回垃圾信息。
明明可以借助这个特性搭建自己的私人查询库么
./robots.txt:
User-agent: *
Disallow: /shegongku/
./shegongku/index.html:
//在这里把各种需要查询又不想浪费自己服务器资源的索引
//建议加密
直接http://www.haosou.com/s?q=site:{yourhost} inurl:shegongku {yourkeyword}
1
vibbow 2015-01-18 12:18:32 +08:00
然后你就被K站了。
|
3
vibbow 2015-01-18 12:23:11 +08:00
|
4
vibbow 2015-01-18 12:25:59 +08:00
However, robots.txt Disallow does not guarantee that a page will not appear in results: Google may still decide, based on external information such as incoming links, that it is relevant. If you wish to explicitly block a page from being indexed, you should instead use the noindex robots meta tag or X-Robots-Tag HTTP header. In this case, you should not disallow the page in robots.txt, because the page must be crawled in order for the tag to be seen and obeyed.
|
5
14ly OP @vibbow 还真是,要添加<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">或者X-Robots-Tag HTTP header,想要试验的同学注意了。
另外我找不到append了,翻了一下自己以前发过的帖子,明明有append |
6
imn1 2015-01-18 13:05:50 +08:00 1
防君子不妨小人
如果我本身就不打算遵守什么协议的话,我一定会这样做: 做个浏览器,用户访问什么 url 都返回服务器(某公司好像就是这样),然后服务器整合信息,用户就是爬虫 |
7
9hills 2015-01-18 13:50:55 +08:00 via iPhone
天真,都会有一个守规矩的爬虫和一个不守规律的专爬disallow的爬虫的,只是后者不展示而已
|
8
honeycomb 2015-01-18 15:50:00 +08:00
强制要求登陆?
设定UA限制? |
9
jilaoduizhang 2015-01-19 16:36:25 +08:00
@14ly 同感 (●'◡'●)
|
10
lfeng 2015-01-20 13:31:05 +08:00
robots.txt 本身就只是一个君子协定,国产爬虫几乎没有遵守的各种照爬不误,真不想他们爬只能根据UA定向输出内容
|