AWS Lightsail 生产服务器频繁断网如何排查?

2021-03-06 09:59:40 +08:00
 naoh1000
个人项目,规模大了一个月前迁移到 AWS Lightsail,用了 2 台 VPS,8c32g 跑业务,4c16g 跑数据库,都是 Ubuntu 20.04 LTS,都跑在 Docker 容器里。最近发现每隔 5 天左右 8c32g 那台机器就会断网,SSH 和业务都连接不上,必须重启才能恢复正常。现在想到的应急解决方案是用 4c16g 那台监控 8c32g 那台,发现掉线就调 API 重启。请问可能是什么问题,有没有更好的解决方案?机器都是自己账号正价买的,没用过任何码。
5280 次点击
所在节点    云计算
22 条回复
msg7086
2021-03-06 10:09:27 +08:00
固定 IP 还是 DHCP ?换一下试试。
另外连接数大不大? 1:1 NAT 可能会炸。
sampeng
2021-03-06 10:11:32 +08:00
aws 没这么脆弱。带宽是 5G…你能跑满?
大概率是 cpu 跑满了。所以 ssh 都回不去了
wancaibida
2021-03-06 10:30:06 +08:00
CPU 用超了吧
kerro1990
2021-03-06 11:05:24 +08:00
估计是 cpu 积分用完了吧
celeron533
2021-03-06 11:08:42 +08:00
我记得 lightsail 虽然便宜,但是对于 CPU 使用有一定限制
aec4d
2021-03-06 11:09:07 +08:00
lightsail 适合开发,或者低占用场景,长时间高负载就会无响应 https://forums.aws.amazon.com/thread.jspa?threadID=269360
jadec0der
2021-03-06 11:48:57 +08:00
lightsail 背后是低成本,可以应付突发性能的 T 实例,平时 CPU 用的很少的时候给你加积分,CPU 高的时候扣积分,如果积分用完了就要卡死了。如果需要持续使用 CPU,建议换成 EC2 的 M 实例或者 C 实例
jadec0der
2021-03-06 11:54:53 +08:00
你看一下 lightsail Manage - Metrics 里的 CPU,如果 Remaining CPU burst capacity 没有了,那 CPU 性能就只能维持在 sustainable zone 区间
naoh1000
2021-03-06 12:51:07 +08:00
感谢回复,刚才看了下 `Remaining CPU burst capacity` 还有 40%,应该不是 CPU 的问题。跑的是普通 Web 服务,端对端加密是在客户端实现的,应该不需要太高服务器 CPU 性能。

@sampeng
@wancaibida
@kerro1990
@celeron533
@aec4d
@jadec0der
kerro1990
2021-03-06 13:02:54 +08:00
@naoh1000 那就是 ubuntu 的问题,换成 centos 试试
jadec0der
2021-03-06 13:27:09 +08:00
@naoh1000 40% 不算高了,把时间拉到 2 weeks 最低的时候有多少?
Kinnice
2021-03-06 13:53:04 +08:00
感觉是内存泄露,检查一下程序吧,开个监测,看一下出问题的时候,各项系统占用
iamv2er
2021-03-06 14:22:40 +08:00
不好用 买了退了
chenqh
2021-03-06 14:45:13 +08:00
个人项目,14C48G,估计挣了钱了,什么时候我能有副业呀
isCyan
2021-03-06 15:00:07 +08:00
SSH 连不上的话很难排查啊,先 ping 确认一下到底是断网还是程序问题?
whitehack
2021-03-06 15:04:33 +08:00
查监控记录,查各项指标. 然后针对性的去排查.
另外逻辑上应该也有日志的吧.这种问题只能一个一个慢慢排查


另外大佬这项目可不小
wangxn
2021-03-06 15:10:31 +08:00
假如 CPU 不超,那就是内存超了吧。内存超了,也会导致完全卡死,只能重启。我也踩过这个坑。
bullfrog
2021-03-06 15:15:30 +08:00
@naoh1000 40%不多,正常应该一直是 100%,除非偶尔执行个 cronjob 可能会降下来点
huson
2021-03-06 16:06:20 +08:00
开一台 EC2 同配置的 一台 lightsail 同时跑 看看 ec2 挂不挂 如果 ec2 挂那就是 lightsail 的问题 不需要折腾了 直接换 ec2

如果 2 个都挂 那说明是你程序问题 直接查 bug 或者环境配置问题 你先把问题大类给分了
bullfrog
2021-03-06 17:37:58 +08:00
对,我能想到比较笨的排查方法就是把 cpu 和内存占用每几秒钟就写到 log 里,死机之后查看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/758981

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX