腾讯云发布 0408 故障报告

253 天前
 kincaid

原文: https://mp.weixin.qq.com/s/2e2ovuwDrmwlu-vW0cKqcA

省流版: 故障的原因是云 API 服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。

本次 API 升级过程中,由于新版本的接口协议发生了变化,在后台发布新版本之后对于旧版本前端传来的数据处理逻辑异常,导致生成了一条错误的配置数据,由于灰度机制不足导致异常数据快速扩散到了全网地域,造成整体 API 使用异常。

发生故障后,按照标准回滚方案将服务后台和配置数据同时回滚到旧版本,并重启 API 后台服务,但此时因为承载 API 服务的容器平台也依赖 API 服务才能提供调度能力,即发生了循环依赖,导致服务无法自动拉起。通过运维手工启动方式才使 API 服务重启,完成整个故障恢复。

想起了之前传闻某团队修复健康码因为健康码无法展示进不了大楼的事情了

11719 次点击
所在节点    云计算
73 条回复
BadFox
252 天前
点开非法加冯公众号看看有没有新的文章。
BadFox
252 天前
hellomsg
252 天前
似曾相识
hellomsg
252 天前
草台班子
Yuesh1
252 天前
@xiaket 不知道为什么在周末发,希望不是我的恶意揣测
mikaelson
252 天前
图 2 那种流量图,是什么工具画的?之前运营商给我流量图也是这种样式的。
kkk123
252 天前
对比 cf 的复盘,企鹅的毫无诚意
jeremyl313
252 天前
@n18255447846 我的 4 月 12 日给了
me1onsoda
252 天前
为什么在周末发?怕别人不知道你腾讯 996 啊。。
standchan
252 天前
@w3cll #32 重构除了引入新的坑之外,然后又会重新走一遍上面的流程。总之就是不停的有坑哈哈哈哈
LieEar
252 天前
再也不觉得大厂牛逼了,这么庞大复杂的系统,原来也是草台班子...
mikywei
252 天前
国内很多企业不是技术位需求服务,而是为了跟进新技术和显得自己有技术而使用新技术。。。殊不知新技术就是不稳定的。
xoic
252 天前
别说这种大厂了,就是小公司在几年之后,人员流动,系统逐渐复杂,根本没有人会想去了解全局的。大多数人都会直接摆烂,跟着原来的流程逻辑走,能打补丁就打补丁,于是祖传屎山代码就出现了,然后指不定哪天就原地爆炸了。

老板们都以为人员迭代业务交接的清清楚楚明明白白是理所当然的,所以在他们看来人员迭代不会有代价的,但事实上培养一个能了解全局的员工是需要大量时间的,有时候倒不是刻意不配合交接,东西太多太杂,交接的时候根本没想起来,那么一个小问题导致故障这种情况就太正常了,剩下的人抓瞎就更正常了。
chperfect
252 天前
按照描述我觉得应该是浏览器缓存的旧的前端页面 js ,然后请求改动后的接口,导致异常。
huixia0010
252 天前
@caqiko 并没有
8355
252 天前
@me1onsoda 出这么大事儿 复盘会还没开就敢休息吗。。。这确实也不现实。
Ritter
252 天前
@n18255447846 我的已经收到了 可以再查询一下
hellomsg
252 天前
很搞笑:
[腾讯云] 您好,您之前提交的代金券申请,经过后端复核您在故障期间未登录控制台,并且未有调用云 API 相关接口记录,因此判断您未受到本次故障的影响,非常抱歉暂无法为您申请代金券。

感谢您关注腾讯云,欢迎随时体验相关产品和服务,若您在使用产品时遇到任何问题,请随时联系我们,感谢您的理解与支持!
hellomsg
252 天前
腾讯云这个月的 kpi 是不是想尽办法少补偿用户
xmskf
252 天前
垃圾腾讯云,说好的补偿代金卷,后面又不给了!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1032290

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX