近期腾讯云每天宕机近一小时,硬盘读流量 109718.682KB/s, iops 2072.501 个…

2020-03-24 10:40:16 +08:00
 xshwy

最近有用户反馈网站不可用,登录后台是发现硬盘读流量暴增到十几万 kb 每秒,可以 ping 的通但是 ssh 无法链接网站无法访问,最终我重启后可以正常使用,之后提交工单客服说已经解决?实际并没有

奇妙的是服务器不可用期间腾讯云并没有任何形式的通知(站内信 短信 微信等),之后我添加了阿里云的站点监控,这几天基本上每天都会有几十分钟的宕机时间,必须重启服务器才能恢复正常。

上次联系客服问了一下赔偿问题,腾讯云官方说可使用率为 99.95%也就是每个月有 21 分钟的不可用时间,但是光昨晚就有 25 分钟的不可用时间……

今天早上又出现问题了,持续了十几分钟,我重启后恢复正常,刚刚提交了工单,看他们怎么说…

服务器配置:香港二区 4 核 8GB 5Mbps 系统盘:高性能云硬盘 标准型 S2 centos7

P1 最近 24 小时硬盘读流量峰值

P2.服务器实时监控

P3. 上次提交的工单信息

2373 次点击
所在节点    全球工单系统
8 条回复
asilin
2020-03-24 11:02:07 +08:00
磁盘 IO 被打满了而已
xshwy
2020-03-24 11:07:52 +08:00
@asilin 是宿主机被攻击了嘛?
mnssbe
2020-03-24 11:26:54 +08:00
自己查不了原因么
airyland
2020-03-24 11:44:50 +08:00
看描述并不能确定是哪方面的问题,但是据我经验这种问题更多的是业务上导致的问题。
你应该看看网站的访问日志确认是否外部流量异常。
xshwy
2020-03-24 12:14:17 +08:00
@mnssbe 上次提交工单的时候,技术人员回复说是宿主机的问题,所以我就没自己去排查,以为是宿主机的原因


@airyland 网站流量有涨,不过整体是平稳的没有拉高峰这样的情况;之前工单说是宿主机的问题 我以为是腾讯云的锅,刚刚技术给我打电话解释了一下,可能确实还是我业务导致的问题,已经在做进一步的调试了
opengps
2020-03-24 12:40:36 +08:00
重启后可以正常使用,这个表现高概率是你系统内部应用有问题。至于是操作系统的应用,还是你自己部署的应用,需要你进一步分析,云厂商不允许触碰客户数据的。
你可以尝试下找懂技术的腾讯云工单支持,提供帐号密码授权协助试试看,阿里云那边曾经这样帮助过我(前几年)。腾讯云这边应该也会有这类特事特办的流程
stiekel
2020-03-24 15:03:58 +08:00
如果重启可以解决,那可以停掉一些业务用的服务试一下。
xshwy
2020-03-24 15:52:13 +08:00
@opengps 腾讯云可以的 刚刚技术帮我排查过了 确实是我的业务问题,有个 python 死了没写退出,也没有做 pid 限制,导致 corntab 不停的调用脚本导致内存溢出了…


@stiekel 确实是我业务问题 是我的锅,之前工单说是宿主机的问题,我以为是腾讯云的锅,原来是我的锅…

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/655606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX