聊一聊程序员遇见的生产环境事故以及如何处理定位的?

2023-01-28 16:58:04 +08:00
 ppboyhai

这么多年程序员生涯各位大佬都遇见哪些生产事故?是否经历过事故后客户无休止电话轰炸与追问,是如何顶住压力解决生产事故的,都来唠嗑

首先说说我这边,曾经某一个周六,三个生产环境同一天崩溃,压力瞬间铺面而来,老板接到客户的电话一个接着一个。那瞬间真是需要莫大的心里承受能力。

三个生产环境的崩溃分别是:

1 、生产服务器遇到了 DDOS 攻击

2 、生产数据库参数被某某修改,查询贼拉拉慢,各种请求超时

3 、前端 Nginx 转发异常,请求各种不通

各位大佬还遇见哪些生产环境事故,是自己动手解决的还是呼叫炮火支援的

12394 次点击
所在节点    程序员
121 条回复
ppboyhai
2023-01-28 16:59:51 +08:00
推出这个主题,主要还是想交流下经验,看是否有必要在 github 上开通个项目,来聊一聊职业生涯中的那种突发事件与解决方案
chenqh
2023-01-28 17:01:39 +08:00
count(*)数据量太多卡住了
chenqh
2023-01-28 17:02:24 +08:00
请求远程 http 请求没有重试,网络波动超时了
chenqh
2023-01-28 17:03:08 +08:00
tornado redis 没用异步,lock 把,结果因为 lock 执行的时间太长把进程卡住了
ppboyhai
2023-01-28 17:04:13 +08:00
@chenqh 这个很典型
xyloading
2023-01-28 17:05:27 +08:00
机房断电,iptables 规则被重置,导致服务网络通讯异常
chenqh
2023-01-28 17:05:58 +08:00
再来个 celery 如果使用 redis 做 broker 的话,如果长时间没有消息的话, celery worker 就不再工作了
guanzhangzhang
2023-01-28 17:07:22 +08:00
https://zhangguanzhang.github.io/ 😁我日常遇到和处理的问题基本都会写成博客,不喜欢写那种纯理论的文章
ppboyhai
2023-01-28 17:07:57 +08:00
@xyloading 这个是内伤,哈哈哈
ppboyhai
2023-01-28 17:08:54 +08:00
@guanzhangzhang 超级赞
proxychains
2023-01-28 17:12:56 +08:00
RAID 卡开了 write back, 但是时间就阵列卡电池没电了, 服务器无法连接后, 尝试强制关机. 结果数据丢了.
不过还好找回了一部分. 从那以后打死不开 write back. :(
proxychains
2023-01-28 17:13:25 +08:00
@proxychains 时间久阵列卡电池没电了. 抱歉打错了字
rrfeng
2023-01-28 17:14:54 +08:00
redis 用的太狠,网卡打爆了……死活查不到为啥 get 超时。
Pantheoon
2023-01-28 17:20:30 +08:00
redis 锁不是原子的,加上锁以后没有自动删掉,导致后面同样的一个 key 再也加不上,这个问题搞了一天,找 dba 拉了很多 redis 执行的数据,最后发现有几个 key 线上没有设置超时时间,再一看代码,那个 redis lock set key 和 expire 是两条命令
demoBastard
2023-01-28 17:23:22 +08:00
每天内存不断增大,但是不是栈内内存而是堆外内存,线上排查。。。
adoal
2023-01-28 17:26:45 +08:00
上级信息管理部门买的蜜罐服务器忘了把我们的 Oracle RAC 服务器的 IP 地址排除出去,然后抢了其中一个拿来搞伪装…于是我们业务系统有半数访问堵死,半数正常。夜里 10 点,供应商的国内技术支持人员都不在岗,转给另一半球大头朝下倒立着的老外工程师远程连线排查。
ppboyhai
2023-01-28 17:27:03 +08:00
@demoBastard 线上排查 有尝试过阿里的 arthas 工具么
dream4ever
2023-01-28 17:30:29 +08:00
1. 早上上班后发现阿里云 Windows 服务器上的 IIS 出故障了,所有网站不可访问,上网查了一圈资料无解,重启后无法进入系统,试了各种方法都不行。而且闹心的是用系统盘 C 盘所有可用的快照恢复后,一开机还是有同样的问题,进不去系统。还好网站和数据都放在 C 盘以外的地方。先临时新开了台备用服务器,把几个关键的网站和数据复制过去,然后再给主服务器装系统。这个问题最后也没法找到原因了,但是重视了快照和运维工作,每周定期重启一次服务器,同时增加了快照的保留份数和保留时长。
2. 还是那台阿里云 Windows 服务器,发现 CPU 时不时地就会 100%,经过对运行的各个网站逐个排查,发现是用 ASP 编写的旧网站有漏洞,用特殊路径访问的话就会出现这种问题,最后把这类请求屏蔽解决问题。
3. 还是这台服务器,CPU 又是时不时地会 100%,在阿里云网页端控制台查看进程,发现是 MySQL 相关进程。因为不知道该从什么方向切入,所以又是 Google ,又是买网上 MySQL 方面的实操课程,最后发现是慢查询导致的,再深入数据库,发现是同事没有给表中的常用字段加索引导致的,加上索引后问题瞬间解决。
u21t20o15
2023-01-28 17:31:11 +08:00
运维把域名给干掉了,导致客户访问不到服务...重新备案走流程要一个多星期
解决方案是弄了个国外服务器做跳转
u21t20o15
2023-01-28 17:32:31 +08:00
好奇,遇到问题的时候大家是什么状态?我是很亢奋那种,导致运营看到我在出严重事故的情况下还嬉皮笑脸投诉到领导那😁

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/911105

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX