腾讯云发布 0408 故障报告

253 天前
 kincaid

原文: https://mp.weixin.qq.com/s/2e2ovuwDrmwlu-vW0cKqcA

省流版: 故障的原因是云 API 服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。

本次 API 升级过程中,由于新版本的接口协议发生了变化,在后台发布新版本之后对于旧版本前端传来的数据处理逻辑异常,导致生成了一条错误的配置数据,由于灰度机制不足导致异常数据快速扩散到了全网地域,造成整体 API 使用异常。

发生故障后,按照标准回滚方案将服务后台和配置数据同时回滚到旧版本,并重启 API 后台服务,但此时因为承载 API 服务的容器平台也依赖 API 服务才能提供调度能力,即发生了循环依赖,导致服务无法自动拉起。通过运维手工启动方式才使 API 服务重启,完成整个故障恢复。

想起了之前传闻某团队修复健康码因为健康码无法展示进不了大楼的事情了

11718 次点击
所在节点    云计算
73 条回复
louisxxx
253 天前
同时回滚到旧版本,并重启 API 后台服务,但此时因为承载 API 服务的容器平台也依赖 API 服务才能提供调度能力,即发生了循环依赖。

这是哪个脑残设计的自己把自己锁死在房间里的架构?
GarethChu
253 天前
100 元代券都还没到账
xierqii
253 天前
互联网公司循环依赖太常见了。比如去年 yuque 故障、阿里云故障、滴滴故障,其背后都和循环依赖有关系。一个关键服务挂掉后,其他服务没法直接恢复。
GenericT
253 天前
@louisxxx 不都这样吗?还记得 Facebook 不,机房的锁也是内网控制的,内网挂了机房连门都进不去。
9i5NngJHI4P7dm42
253 天前
没进过大厂, 不知道他们备份机制是怎么样的, 我们上线前都会备份当前版本为 docker1, 即将上线的版本是 docker2, 上线完成后的版本是 docker3, 出现依赖问题就全部回滚为 docker1, 几年从没出过问题
frankilla
253 天前
@xmumiffy #12 我当时就用的在线客服报障的啊
frankilla
253 天前
之前不是有人在吹外国怎么怎么样,国内怎么怎么样。。。听的我直犯恶心,现在腾讯发问了,不知道这类人怎么回复。
esee
253 天前
100 代金券说好要给,最后都不舍得给,抠门的要死
hancai2
252 天前
@odifjg9384hg 报告里面说了都嘛,回滚依赖于平台的 API ,而 API 又故障了,最终是靠运维手动回滚的。 你们公司应该就是纯手工回滚 docker2 , 就不存在这种循环依赖了。
n18255447846
252 天前
100 代金券未到账,找售后也没反应了
weeei
252 天前
@xmumiffy 我们是通过企业微信群报的
w3cll
252 天前
@BeiChuanAlex 那就重构 🐶
chen1706
252 天前
tigerstudent
252 天前
@alanhe421 #8 那以后的 C ,不就成了现在的 B ?
gotosre
252 天前
@Hopetree 摆设, 肯定是摆设, 1. 状态不及时更新 2. 对外公布异常/故障要层层审批
alanhe421
252 天前
alanhe421
252 天前
@alanhe421 更正:AC ,BC
Rehtt
252 天前
tigerstudent
252 天前
@alanhe421 #37 所有服务不还是依赖了 C ,难道 C 以后不会迭代更新了?
dys0327
252 天前
@caqiko #17 没有

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1032290

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX