通过服务器日志,可以追踪到用户每次请求的日志,格式是 2018-01-16 16:00:01 X 接口 A 用户请求 2018-01-16 16:00:02 X 接口 A 用户请求 2018-01-16 16:00:03 X 接口 B 用户请求 2018-01-16 16:00:04 X 接口 A 用户请求 2018-01-16 16:59:59 X 接口 B 用户请求 ... 类似这种,最简单的方式就是给个统计上限 N,1 小时超过 N 次,则判定为爬虫用户
但这样,N 的值就不好取,取小了,会误封普通用户,取大了,会少封爬虫用户
想了想还有一个可以参考的,就是访问的频率(密集程度),比如 A 在 1 分钟请求了 N-1 次,和 B 在 1 分钟内请求了 N+1 次,按道理 A 为爬虫的概率应比 B 大得多