小网站每个月光是谷歌爬虫的 CDN 流量费用就要 30 元+?

2017-11-22 17:23:13 +08:00
 wyan453351466

根据我后台的数据统计,谷歌的爬虫保守估计一天请求了我的网站 3 万次。

这还不算其他的一些搜索引擎的请求( yandex 之类的)。

这个数据正常吗?

如果一个恶意爬虫,user-agent 冒充是 Google。这个有办法识别吗?

下面晒一下昨天又拍云的费用账单,光是欧美的动态资源加速费用就 1.64 元(我是大陆中文网站哪会有欧美的用户?)。加上 https 加速和 cdn 流量费用是 2 元多。按这个标准,每个月我要付费 60 多块钱给欧美的爬虫!

我的真实 PV 才 3000 啊(百度统计的数据)。每日动态资源请求次数居然可以有 8 万,你敢信?

所以现在是要限制一下谷歌爬虫的请求频率?这个谷歌官方应该有设置。

我想求教大家的是:

  1. 如何准确的区分真实搜索引擎,和恶意爬虫?( user-agent 判断貌似不靠谱)

  2. 如何更好的反爬虫?判断一个 IP1 分钟、1 小时、1 天内的请求次数?

  3. 更关键的是:我想求教大牛:有没有真实案例自己网站日均 PV10 万+的?开 HTTPS 的情况下,这样的网站一个月的 CDN、流量费用要多少钱呢?( HTTPS 的 CDN 请求也要钱的!阿里云和又拍云的价格是:1 万次 0.05 元)

10957 次点击
所在节点    程序员
45 条回复
paranoiagu
2017-11-23 19:27:50 +08:00
@wyan453351466 不会用原站的,就是国外用户访问了国内的 CDN,速度慢一点。
paranoiagu
2017-11-23 19:29:49 +08:00
@mymuw 回源端口支持非标准端口吗?现在电信封了 80 和 443。
Hmily
2017-11-24 09:52:40 +08:00
可以在域名解析上区分析蜘蛛线路,可以选择重要蜘蛛回源不走 cdn,cdn 过来的假蜘蛛可以屏蔽。
8355
2017-11-24 10:26:12 +08:00
其实你的 PV 很可能超过 3000 因为现在浏览器的广告屏蔽插件都会屏蔽百度统计的 js 加载 所以实际上可能没有你看到的那么少.
kaer
2017-11-24 17:07:28 +08:00
@IzY 开什么玩笑咯。我们靠这点广告吃饭早就倒闭了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/408635

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX