你写代码生涯里遇到过最玄学或者说最灵异的事情是什么?(有时候真的是细思极恐

2023-08-19 21:40:27 +08:00
 zhengzhongzhao
913 次点击
所在节点    程序员
4 条回复
zhengzhongzhao
2023-08-19 21:41:19 +08:00
@lsk569937453 : mysql 故障导致即使 mysql 恢复了,但是后端应用连不上(控制台没有任何连数据库的报错),重启后端就恢复。
线下用阿里的混沌工具一点一点的模拟故障,终于在网络丢包率达到 85%时,故障重现。

原来是后端连 mysql 的时候没有设置超时时间,导致连接的时候丢包了,因为没有连接超时,所以程序就卡在这里了。
zhengzhongzhao
2023-08-19 21:41:43 +08:00
@syrinx :

汇编代码,编译正常,逻辑也没有问题,但是就是无法执行完成到下一步。
给我的主管一位博士看过,他也说没问题。
我的博士主管第二天一大早丢了一段代码给我,让我试试,我说逻辑不是一样嘛,结果 PASS
事后问博士原因,博士说他也不知道,但是他知道如果这样不行,那就换个姿势试试
CEBBCAT
2023-08-20 00:57:06 +08:00
/t/966273 你在做什么?
ryd994
2023-08-20 09:52:55 +08:00
这种事情找个有经验的运维一看就能看出来。或者触发一个 crash dump 就能看出来

底层的 bug 才是见鬼。发送方抓包包路由器上硬件抓包都显示包发出来了。但是接收方就是没收到。
如果你以为是线的问题,那肯定不是,因为一样的发送方接收方,其他包都是正常的,唯独这一类包收不到。
如果你以为是防火墙问题,那肯定不是,因为用网卡厂家的工具从固件上抓包,也是一样收不到。
如果你以为是 RSS 问题,那肯定不是,因为对比正常的包和丢了的包,包括端口号在内的所有报头都是一模一样
如果你以为是性能问题,那肯定不是,因为这一类包很稳定的就是收不到,另一类包一样的端口很稳定的就是能收到。
如果你以为是硬件问题,那肯定不是,我们几百台机器,随机就有几台出问题。但是重启程序又正常了。不知道什么时候哪台就会开始发疯。
如果你以为是程序 bug ,那肯定不是,这个底层程序我们已经用了大半年了,就算上层出问题,底层平台不会受影响。

现在找硬件厂商,但是厂商的人也还研究出什么问题。最见鬼的是死活不能复现。实验室里无法复现也就算了。生产环境里也无法稳定复现。加了 debug 日志的程序,替换到生产环境的任何一台机器上,仍然不复现。
所以我们只能把 debug 日志部署到整个集群,真就是守株待兔。

还不够恐怖?那再加一条:计划月底上线,上线不了公司要赔钱。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/966718

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX