已知用户访问量的情况下,用什么算法区分爬虫用户和普通用户?

2018-01-16 16:17:22 +08:00
 dassh
通过服务器日志,可以追踪到用户每次请求的日志,格式是
2018-01-16 16:00:01 X 接口 A 用户请求
2018-01-16 16:00:02 X 接口 A 用户请求
2018-01-16 16:00:03 X 接口 B 用户请求
2018-01-16 16:00:04 X 接口 A 用户请求
2018-01-16 16:59:59 X 接口 B 用户请求
...
类似这种,最简单的方式就是给个统计上限 N,1 小时超过 N 次,则判定为爬虫用户

但这样,N 的值就不好取,取小了,会误封普通用户,取大了,会少封爬虫用户

想了想还有一个可以参考的,就是访问的频率(密集程度),比如 A 在 1 分钟请求了 N-1 次,和 B 在 1 分钟内请求了 N+1 次,按道理 A 为爬虫的概率应比 B 大得多

应该怎么将这个转换为算法 /逻辑? 或者有什么好用简单的方法?

谢谢!
1830 次点击
所在节点    问与答
3 条回复
wdd2007
2018-01-16 16:24:53 +08:00
爬虫不执行 js,统计用 js 调用。
crab
2018-01-16 16:25:35 +08:00
不请求 css img 的 IP 很大几率就是爬虫。(当然这个不能公开,规则也要经常调整)
dassh
2018-01-16 16:47:51 +08:00
例子有错别字,重写一下:
比如 A 在 1 分钟请求了 N-1 次,和 B 在 1 小时内请求了 N+1 次,按道理 A 为爬虫的概率应比 B 大得多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/423365

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX