如何屏蔽搜索引擎蜘蛛

2015-01-17 08:49:35 +08:00
 Gce
为了给服务器减轻压力,如何屏蔽各大搜索引擎蜘蛛?或者各大蜘蛛IP段?
3798 次点击
所在节点    问与答
15 条回复
liuchen9586
2015-01-17 08:51:55 +08:00
网站根目录下建立个robots.txt文件
然后内容写上

User-agent: *
Disallow: /

就行了
Chipper
2015-01-17 08:52:47 +08:00
在网站的根目录里建立一个robots文件即可。
xfspace
2015-01-17 08:53:52 +08:00
fising
2015-01-17 08:54:54 +08:00
除了robots文件,最好能在服务器层面deny
typcn
2015-01-17 09:08:07 +08:00
我之前尝试过拒绝 UA 中含有 360 的请求,结果 360 搜索非常正常地收录了我的最新内容。
kiritoalex
2015-01-17 09:26:31 +08:00
@typcn 360爬虫不遵循robots协议,只能屏蔽IP
hjc4869
2015-01-17 09:34:24 +08:00
@kiritoalex 360不支持https吧
kiritoalex
2015-01-17 09:40:04 +08:00
@hjc4869 应该是
kiritoalex
2015-01-17 09:43:29 +08:00
最有效的方式是屏蔽搜索引擎整个的IP段,对于遵循robots的爬虫可以直接放robots.txt.不遵循的也只好屏蔽整个IP段了(比如腾讯搜搜和360的爬虫)
overlords
2015-01-17 10:44:23 +08:00
使用dnspod的用户可以在给搜索引擎特地执行一个IP;如127.0.0.1 搞定了;
miao
2015-01-17 14:06:55 +08:00
好吧. 我的网站巴不得天天爬虫来爬
mornlight
2015-01-17 14:11:52 +08:00
robots 有个缓存期,如果需要立马有效的话,nginx里屏蔽UA
enjoyzhou
2015-01-18 01:43:30 +08:00
只是减少服务器压力,可以通过搜索引擎站长平台调整抓取频率,无需全部禁止的
ctsed
2015-01-18 13:22:00 +08:00
http://zhanzhang.baidu.com/pressure/index # 站点管理 > 抓取频次

https://www.google.com/webmasters/tools/settings # 网站设置 > 抓取速度
kimmykuang
2015-01-20 23:23:34 +08:00
国内很多spider是不遵守robots协议的,比如360,明着不要脸的,我们现在采用的方法还是用go实现了一套逻辑去分析用户行为,最终还是为了去ban spider ip,结合着fail2ban使用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/162904

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX