腾讯云发布 0408 故障报告

253 天前
 kincaid

原文: https://mp.weixin.qq.com/s/2e2ovuwDrmwlu-vW0cKqcA

省流版: 故障的原因是云 API 服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。

本次 API 升级过程中,由于新版本的接口协议发生了变化,在后台发布新版本之后对于旧版本前端传来的数据处理逻辑异常,导致生成了一条错误的配置数据,由于灰度机制不足导致异常数据快速扩散到了全网地域,造成整体 API 使用异常。

发生故障后,按照标准回滚方案将服务后台和配置数据同时回滚到旧版本,并重启 API 后台服务,但此时因为承载 API 服务的容器平台也依赖 API 服务才能提供调度能力,即发生了循环依赖,导致服务无法自动拉起。通过运维手工启动方式才使 API 服务重启,完成整个故障恢复。

想起了之前传闻某团队修复健康码因为健康码无法展示进不了大楼的事情了

11720 次点击
所在节点    云计算
73 条回复
mkroen
252 天前
@hellomsg #58 我也收到了。虽然也就 100 ,但感觉好小气哈哈
panisertoller
252 天前
@xmumiffy api 错误会被系统统计到,所以可以得到错误人数,再加上后续主动报障的工单。就算出来了。
panisertoller
252 天前
@hellomsg 没什么搞笑的,估计售后被薅秃了
panisertoller
252 天前
@xmskf 被判定为薅羊毛了,先自查下,确定自己被影响了,要再多些也没毛病。
kun775
251 天前
@esee 是的,拖了 5 天,最后说故障期间没有登录记录,不给券,RTM ,我打算迁移服务到阿里云了
kun775
251 天前
@panisertoller #64 明知道那时故障了还要去登录,才能代表受到影响?徒增系统负载罢了,看来以后得弄个脚本,每分钟去登录一次控制台
Akiya
251 天前
API 循环依赖,一直以为只有草台班子才能够搞出这种
saveai
251 天前
@caqiko 没有,我问了客服,他们说未受到影响。。。。
zebwqfox
251 天前
难道不是 b 站 slb 炸了然后 vpn 连不进去吗(
wheat0r
251 天前
@GenericT #24 cf 去年 11 月 PDX-04 停电故障,据说配电室门禁是由配电室供电的
GenericT
251 天前
@wheat0r 都一样的,反倒是说只有大一点的公司才有余力去做这些内部的依赖
louisxxx
247 天前
其实知道会自己锁死自己的。但过度自信,二是为了方便统一管控权限。后面估计涨记性了,毕竟停一天损失上亿
louisxxx
247 天前
@GenericT 其实知道会自己锁死自己的。但过度自信,二是为了方便统一管控权限。后面估计涨记性了,毕竟停一天损失上亿

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1032290

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX