V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xisha
V2EX  ›  问与答

复杂的业务项目有无成熟框架做异常检测

  •  
  •   xisha · 2 天前 · 382 次点击

    背景:

    复杂的业务项目,存在超巨量的业务逻辑,依赖大量数据源和输出大量指标。每次改动如果出现一些代码错误还好,就怕出现一些配置错误或者其他依赖问题,系统不报错,但指标值偏差好多,这种情况很难发现。

    问题:

    我想通过异常检测来初步判断输入输出是否出现了异常,比如原本长度均值在 12K 的字段突然下降到 1K ,指标只出现一个值,但预期会有 5 个值这种。除了手撸一套检查脚本外,有没有一些成熟的框架能做这个的呀?

    PS

    如果除了异常检测外,有别的方案,也麻烦各位大佬帮忙指出。多谢多谢

    第 1 条附言  ·  2 天前
    我举两个例子:
    1.上游接口提供的数据在变更后,该 List 会在 12 条数据时截断,真实数据可能是 5-40 条,后来发现有段时间的指标平均值下降了很多,才找到原因,如果用时序异常检测,应该能发现。
    2.线上接口,调用后会根据参数返回标签,正常会返回 5 枚举中的一个,上游运维错误后只能返回 1 个,这种通过异常数据检测应该也能发现。
    现在的想法是有没有什么成熟方案,我这边初步想用 Flink 去日跑批,或者脚本日跑批。
    4 条回复    2024-10-22 09:53:47 +08:00
    Manley
        1
    Manley  
       2 天前
    插眼,看看有没有大佬推荐,我学习一下
    xiaoxinshiwo
        2
    xiaoxinshiwo  
       2 天前
    playwright 代替人工输入和点击
    xisha
        3
    xisha  
    OP
       2 天前
    @xiaoxinshiwo 多谢推荐,了解了下这是个测试工具,但是这个场景需要的是线上实时或事后的异常数据检测及发现,发现一些非预期变更。
    我举两个例子:
    1.上游接口提供的数据在变更后,该 List 会在 12 条数据时截断,真实数据可能是 5-40 条,后来发现有段时间的指标平均值下降了很多,才找到原因,如果用时序异常检测,应该能发现。
    2.线上接口,调用后会根据参数返回标签,正常会返回 5 枚举中的一个,上游运维错误后只能返回 1 个,这种通过异常数据检测应该也能发现。
    现在的想法是有没有什么成熟方案,我这边初步想用 Flink 去日跑批,或者脚本日跑批。
    qocja
        4
    qocja  
       2 天前
    prometheus 加几个 metrics 就好吧,如果需要告警再来个 alertmanager 就完事了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5209 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:16 · PVG 15:16 · LAX 00:16 · JFK 03:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.