ryd994
2023-08-20 09:52:55 +08:00
这种事情找个有经验的运维一看就能看出来。或者触发一个 crash dump 就能看出来
底层的 bug 才是见鬼。发送方抓包包路由器上硬件抓包都显示包发出来了。但是接收方就是没收到。
如果你以为是线的问题,那肯定不是,因为一样的发送方接收方,其他包都是正常的,唯独这一类包收不到。
如果你以为是防火墙问题,那肯定不是,因为用网卡厂家的工具从固件上抓包,也是一样收不到。
如果你以为是 RSS 问题,那肯定不是,因为对比正常的包和丢了的包,包括端口号在内的所有报头都是一模一样
如果你以为是性能问题,那肯定不是,因为这一类包很稳定的就是收不到,另一类包一样的端口很稳定的就是能收到。
如果你以为是硬件问题,那肯定不是,我们几百台机器,随机就有几台出问题。但是重启程序又正常了。不知道什么时候哪台就会开始发疯。
如果你以为是程序 bug ,那肯定不是,这个底层程序我们已经用了大半年了,就算上层出问题,底层平台不会受影响。
现在找硬件厂商,但是厂商的人也还研究出什么问题。最见鬼的是死活不能复现。实验室里无法复现也就算了。生产环境里也无法稳定复现。加了 debug 日志的程序,替换到生产环境的任何一台机器上,仍然不复现。
所以我们只能把 debug 日志部署到整个集群,真就是守株待兔。
还不够恐怖?那再加一条:计划月底上线,上线不了公司要赔钱。