这里有 SAE 的童鞋吗?网站被各家搜索引擎给轮 X 了,怎么破?

2014-10-09 10:19:08 +08:00
 abelyao
估计这个域名以前是有网站的,
现在我绑定到 SAE 上面,
百度 / Google / Bing 等几个搜索引擎的蜘蛛,每天访问几百次特定页面,
消耗了我很多云豆,
有什么办法可以屏蔽吗?

3698 次点击
所在节点    问与答
21 条回复
sunshower
2014-10-09 10:23:20 +08:00
robots.txt
abelyao
2014-10-09 10:26:36 +08:00
@sunshower 就访问记录来看,只有 bing 偶尔才访问一次 robots.txt
dong3580
2014-10-09 10:50:09 +08:00
@sunshower
更新robots.txt基本不起作用,试过整整两个月之后,世界才清净了。
试了试写邮件反馈,也是没用的。
唯一的方法不知道是不是暂时屏蔽他们的ip.
loading
2014-10-09 10:53:57 +08:00
你这个url有东西吗?返回403
kenjey01
2014-10-09 10:56:33 +08:00
每天几百次 会消耗很多云豆吗? 404基本没有多少流量消耗
abelyao
2014-10-09 11:03:52 +08:00
@dong3580 他们的 IP 太多了,哎!
abelyao
2014-10-09 11:04:29 +08:00
@loading 没有对应的 url,返回 403 可以让搜索引擎歇一歇吗?
abelyao
2014-10-09 11:05:16 +08:00
@kenjey01 云豆目前来说是足够的,但是占了几百页日志,严重影响我分析网站的一些情况…
ab
2014-10-09 11:08:42 +08:00
没有这个问题...
mornlight
2014-10-09 11:14:25 +08:00
robots.txt 肯定会有用的,但是搜素引擎会缓存robots的内容,你更新后很久他们才跟着更新。
另外,如果针对百度的话可以到百度站长平台里试一试,能调节Spider频率
abelyao
2014-10-09 11:30:02 +08:00
@mornlight 暂时先添加 robots.txt 了
typcn
2014-10-09 12:03:09 +08:00
@abelyao 为毛要用日志分析..... 用第三方分析就完了,正好还能过滤不支持 js 的 bot,话说我以前也是用的sae bae 后来感觉性能太渣就开始用 vps 了
Execution
2014-10-09 12:12:34 +08:00
花时间去整这些什么e的时间,够撸主上几个性价比vps了,撸的还带劲。
dong3580
2014-10-09 13:13:38 +08:00
@abelyao
我想了想一个解决方法,前提如果你的代码使用MVC方式写的,可以在路由中加入全局代码,404的话跳转到某个静态页面。
截一段我的代码给你参考。
```C#
protected void Application_Error(object s, EventArgs e)
{
Exception ex = Server.GetLastError();
if (ex.GetType().Name == "HttpException")
{
HttpException exception = (HttpException)ex;
if (exception.GetHttpCode() == 404)
{
Response.StatusCode = 404;
Response.Redirect("/Home/Error?code=PageNotExist");
}
}
Server.ClearError();
}
```

如果使用了IIS部署的,直接可以在iis设置里面加上404的跳转地方,这样就不会销耗什么流量了。
(猜想其他部署的方式也可以实现吧)
knightluffy
2014-10-09 13:24:24 +08:00
用https吧。。估计只有Google的蜘蛛能进了。。
zts1993
2014-10-09 15:43:45 +08:00
SAE防火墙啊。。。
我也被艹过。。。好惨的说。、
mornlight
2014-10-09 16:11:10 +08:00
@knightluffy SAE 的自定义域名能使用https?我前几天还在微博上跟SAE的架构负责人吐槽过
abelyao
2014-10-09 18:14:23 +08:00
@zts1993 防火墙研究了半天,不懂如何屏蔽搜索引擎啊,请指点一下!
sandideas
2014-10-09 19:18:33 +08:00
@abelyao 把所有爬虫ip拉黑名单
zts1993
2014-10-09 20:23:32 +08:00
@abelyao 屏蔽p

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/137755

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX