上个月我在 V2EX 发过一个更早期版本,当时更多是在讲思路。
这次把项目整理到了一个能直接跑的 v0.1.0 MVP,所以补发一次更新版:
debug-runbook
https://github.com/UnCooe/debug-runbook
如果你上次看过,这次值得重新看一眼的点主要有 3 个:
- 现在可以直接
pnpm demo,0 配置先跑起来 - 项目边界收紧了,不再把它写成“完整生产系统开源版”
- custom runbook 、README 、发布面都补到了一个更像
v0.1.0的状态
这个项目核心还是那个判断:
很多线上故障不是没有规律,而是排查流程本身高度套路化。
比如某个结果不对,正常排查顺序往往就是:
- 先对齐期望结果和实际结果
- 再看缓存
- 再看 DB
- 再看 trace / 调用链
- 最后判断到底是缓存陈旧、预期副作用没发生,还是状态本身异常
我后来越来越觉得,AI 排障里最值钱的不是“给模型更多工具”,而是把这套顺序和证据边界写清楚。
不然就很容易变成:
- 工具很多,但调查路径不稳定
- trace / SQL / 日志一长就开始跑偏
- 结论看着像那么回事,但 audit 不动
所以这个项目做的事情,不是再封装一堆调试工具,而是把排障经验写成可执行 Runbook ,让 Agent:
- 先选对剧本
- 再按顺序取证
- 最后按 evidence rules 下结论
现在仓库里开源的是这层可复用骨架:
- Runbook selector
- ordered executor
- evidence normalization
- decision engine
- MCP server 入口
边界也先说清楚:
- 当前是早期开源 MVP
- 不是原内部系统的完整开源镜像
- 不包含私有 DAG 、权限系统和自动修复链路
现在已经能 0 配置直接跑 demo 了:
pnpm install
pnpm demo
pnpm benchmark
pnpm check
快来试试,把你们团队祖传的排错绝招写成剧本提个 PR !