根据我后台的数据统计,谷歌的爬虫保守估计一天请求了我的网站 3 万次。
这还不算其他的一些搜索引擎的请求( yandex 之类的)。
这个数据正常吗?
如果一个恶意爬虫,user-agent 冒充是 Google。这个有办法识别吗?
下面晒一下昨天又拍云的费用账单,光是欧美的动态资源加速费用就 1.64 元(我是大陆中文网站哪会有欧美的用户?)。加上 https 加速和 cdn 流量费用是 2 元多。按这个标准,每个月我要付费 60 多块钱给欧美的爬虫!
我的真实 PV 才 3000 啊(百度统计的数据)。每日动态资源请求次数居然可以有 8 万,你敢信?
所以现在是要限制一下谷歌爬虫的请求频率?这个谷歌官方应该有设置。
我想求教大家的是:
如何准确的区分真实搜索引擎,和恶意爬虫?( user-agent 判断貌似不靠谱)
如何更好的反爬虫?判断一个 IP1 分钟、1 小时、1 天内的请求次数?
更关键的是:我想求教大牛:有没有真实案例自己网站日均 PV10 万+的?开 HTTPS 的情况下,这样的网站一个月的 CDN、流量费用要多少钱呢?( HTTPS 的 CDN 请求也要钱的!阿里云和又拍云的价格是:1 万次 0.05 元)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.