已知用户访问量的情况下，用什么算法区分爬虫用户和普通用户？

通过服务器日志，可以追踪到用户每次请求的日志，格式是
2018-01-16 16:00:01 X 接口 A 用户请求
2018-01-16 16:00:02 X 接口 A 用户请求
2018-01-16 16:00:03 X 接口 B 用户请求
2018-01-16 16:00:04 X 接口 A 用户请求
2018-01-16 16:59:59 X 接口 B 用户请求
...
类似这种，最简单的方式就是给个统计上限 N，1 小时超过 N 次，则判定为爬虫用户

但这样，N 的值就不好取，取小了，会误封普通用户，取大了，会少封爬虫用户

想了想还有一个可以参考的，就是访问的频率（密集程度），比如 A 在 1 分钟请求了 N-1 次，和 B 在 1 分钟内请求了 N+1 次，按道理 A 为爬虫的概率应比 B 大得多

应该怎么将这个转换为算法 /逻辑？或者有什么好用简单的方法？

谢谢！

dassh

2018-01-16 16:47:51 +08:00

例子有错别字，重写一下：
比如 A 在 1 分钟请求了 N-1 次，和 B 在 1 小时内请求了 N+1 次，按道理 A 为爬虫的概率应比 B 大得多

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/423365

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.