问题来了,什么底层系统软件能造成这么大的故障呢?

213 天前
 zhaojiaxing
再一次致歉
11 月 27 日夜间发生的系统故障,给广大用户造成了诸多困扰和不便,在大家需要我们的时候,我们让大家失望了,再次向大家真诚致歉。
各项服务恢复的同时,我们在 28 日启动了内部复盘调查。初步确定,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”,后续我们将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生
目前,滴滴 App 的所有服务已经全部恢复。因这起事故给大家造成的困扰和问题,我们正在加快妥善解决。感谢大家对滴滴的鞭策、关心和包容。今天的滴滴还有很多不足,我们将以此为戒,在全公司范围内深刻反思,全力改正,继续努力做好服务保障。
滴滴出行
2023 年 11 月 29 日
3803 次点击
所在节点    问与答
25 条回复
James2099
213 天前
开猿节流,降本增笑
James2099
213 天前
常规的 bug,不可能宕机这么久
zfy941
213 天前
了解底层和能解决底层问题的人被优化了
写 ppt 的人发现怎么写 ppt 也解决不了问题
stinkytofu
213 天前
越底层的服务, 平时越不显眼, 开发维护人员越得不到重视, 甚至都写不了漂亮的 KPI
weiweiwitch
213 天前
@stinkytofu 这其实也是做后端特别是底层基础设施的人的苦和原罪。
即使公司很重视,但因为是保障性工作。也是非常依赖技术人的职业道德和自律来维持。管理层做的最多,也只能像菩萨一样供着,但也无法一定保证不出问题。
bt7vip
213 天前
遇到 xfs 系统因为驱动缺陷,空间被占满导致宕机,重启后,挂载没有报错,执行任何读写操作都会报错,存在块错误。
可以解决吗?
常规方法,校验文件完整,进行修复。
能做吗--不做。
20t 数据,因为几个块数据没写入,就造成整个系统文件损坏,校验就要校验 20T ,还不保证数据能恢复。
有人能做吗--有,找精通 xfs 的人处理。
费用谁出,手动修复失败谁背锅。非在职人员处理接触业务,出了问题谁担责。
招一个???刚裁掉。
zhaojiaxing
213 天前
@bt7vip 艹,悲哀啊
zhaojiaxing
213 天前
@weiweiwitch 确实会这样,太难了
dode
213 天前
滴滴作为上市公司有义务公布这个故障详细原因吗?
kokutou
213 天前
oa 系统数据库在一个 Linux 服务器上,
磁盘是 lvm thin 的, 格式是 xfs

硬盘没有满, 但是为啥程序报错了, 写入不了了呢...

检查发现 meta 满了....
fxxkgw
213 天前
K8S 多了就不透露了
zong400
213 天前
#6 #10 是真相?
LXchienne
212 天前
@kokutou #10 求问,oa 系统挂了,为啥 app 端也一锅端了呀
iyiluo
212 天前
整天说高可用,容灾,异地部署,怎么一台机器挂了就全挂了
crazyTanuki
212 天前
裁员省的钱和出问题亏损的钱,哪个多?
Goooooos
212 天前


网传截图,不知道真假
LeibnizLeo
212 天前
学到了学到了
shengmi
212 天前
道理都懂,先别急~让开车的上下班先爽几天
zhaojiaxing
212 天前
@Goooooos 好像都在传这个版本
buffzty
212 天前
18 个小时才修复 肯定就不是技术问题 而是经验问题了 有些软件一旦升级就出错 而且这个错你搜不到 就是无法运行 除非你以前搞过 不然就慢慢从底层往上研究吧 他们 18 个小时才好 说不定以前负责这个的人改个参数就重启好了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/996188

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX