V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
dassh
V2EX  ›  问与答

已知用户访问量的情况下,用什么算法区分爬虫用户和普通用户?

  •  
  •   dassh · 2018-01-16 16:17:22 +08:00 · 1634 次点击
    这是一个创建于 2264 天前的主题,其中的信息可能已经有所发展或是发生改变。
    通过服务器日志,可以追踪到用户每次请求的日志,格式是
    2018-01-16 16:00:01 X 接口 A 用户请求
    2018-01-16 16:00:02 X 接口 A 用户请求
    2018-01-16 16:00:03 X 接口 B 用户请求
    2018-01-16 16:00:04 X 接口 A 用户请求
    2018-01-16 16:59:59 X 接口 B 用户请求
    ...
    类似这种,最简单的方式就是给个统计上限 N,1 小时超过 N 次,则判定为爬虫用户

    但这样,N 的值就不好取,取小了,会误封普通用户,取大了,会少封爬虫用户

    想了想还有一个可以参考的,就是访问的频率(密集程度),比如 A 在 1 分钟请求了 N-1 次,和 B 在 1 分钟内请求了 N+1 次,按道理 A 为爬虫的概率应比 B 大得多

    应该怎么将这个转换为算法 /逻辑? 或者有什么好用简单的方法?

    谢谢!
    3 条回复    2018-01-16 16:47:51 +08:00
    wdd2007
        1
    wdd2007  
       2018-01-16 16:24:53 +08:00   ❤️ 1
    爬虫不执行 js,统计用 js 调用。
    crab
        2
    crab  
       2018-01-16 16:25:35 +08:00
    不请求 css img 的 IP 很大几率就是爬虫。(当然这个不能公开,规则也要经常调整)
    dassh
        3
    dassh  
    OP
       2018-01-16 16:47:51 +08:00
    例子有错别字,重写一下:
    比如 A 在 1 分钟请求了 N-1 次,和 B 在 1 小时内请求了 N+1 次,按道理 A 为爬虫的概率应比 B 大得多
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2844 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 13:45 · PVG 21:45 · LAX 06:45 · JFK 09:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.