终于知道阿里云服务器突然重启的原因了

2015-09-14 11:35:16 +08:00
 yueyoum
我们在阿里云有 8 台 ECS

其中一些服务器 突然重启过, 这种事情一共有三次。

第一次 是去年十一假期, 当时服务器刚上线, 一些配置还没写入到 /etc/rc.local 中
如果服务器重启,那么我们的服务是没有自动启动的。

还好,当时旅游是 十月一号下午出去, 上午服务器重启了,用户反映无法登录。
最后及时把问题处理了。

后面 所有机器都配置了 /etc/rc.local , 重启也不怕了
但是 第二次,第三次重启 还是造成了 两分钟左右的服务不可用。


前几次都提过工单, 但是后面都不了了之。
昨晚这次重启, 又提交过一次工单

阿里云客服首先是 引导我去买他们的 SSD 云盘。

然后我把 syslog 给他们看,

他们终于说出了实情:

### 售后工程师 :您好,是由于物理机异常发生了宕机迁移操作导致的



真是蛋疼!!!

下个项目 还是上 ucloud 吧!
18267 次点击
所在节点    云计算
62 条回复
ipconfiger
2015-09-14 13:22:06 +08:00
ucloud 都是商业用户, 稳定性要好很多了,反正我的机器 uptime 都快 2 年了
cnhejia
2015-09-14 13:25:33 +08:00
物理机总是会出现宕机的情况的,这个不可避免。
阿里云宕机迁移后数据存储是分布式的所以物理机不会影响数据安全性。
但内存数据遇到突然宕机是没办法的。这个估计哪家服务商都一样吧, VMWare 的 HA 也是物理机没有突然挂掉的情况下实现的。
atom
2015-09-14 13:28:40 +08:00
因为他家虚拟机间的隔离性不好
echo1937
2015-09-14 13:30:08 +08:00
@9hills vSphere 的 HA 的 FT 功能,可以把你的内存状态都同步过去。
show8salary
2015-09-14 14:18:05 +08:00
坐等阿里云解释
Havee
2015-09-14 14:27:02 +08:00
其实他家自己的云盾吃了太多的资源,我一直认为阿里不是做技术也不是做产品,完完全全就是营销为王。
c742435
2015-09-14 14:35:27 +08:00
虽然虚拟机可以热迁移 但是主机跪了就啥用也没有了
9hills
2015-09-14 15:13:16 +08:00
@echo1937 就算是 FT ,主机突然挂掉也是几乎实时同步,还有有些许 diff

进程状态同步永远不会是实时的,除非网络带宽达到了内存带宽。
9hills
2015-09-14 15:21:30 +08:00
@echo1937 当然 FT 说能做到 1ms delay 。。。对大部分业务来说足够了,几乎无感知。
但是代价是算钱算双份,另外开源界应该还没有相应的实现出来。
dudesun
2015-09-14 15:36:16 +08:00
自己不会用怨别人?典型的半瓶子醋
wzxjohn
2015-09-14 16:37:38 +08:00
@9hills 但是阿里云不是只有一台宿主。。。我的意思是技术上做得到,只是愿不愿意做而已。。。
ksex
2015-09-14 16:50:03 +08:00
打广告还要黑一下阿里云 6666
est
2015-09-14 17:05:14 +08:00
我觉得虚拟机的 HA 技术挺神奇的。比如我买了个 256G 内存的机器,突然掉电, host 母鸡是需要瞬间持久化序列化这 256G 数据啊。想想真是碉堡了。
likuku
2015-09-14 17:15:41 +08:00
GAE 这种的代码丢云上就 OK ,其它所有资源都靠 API 来读写的,才能称为真正含义上的云吧。
wintersun
2015-09-14 17:47:19 +08:00
@est
首先,母鸡机器都是连接 UPS (不间断电源),支撑个几分钟到你能正常关机是没问题的;
其次,机房可能还有发电机设备……
我也没搞过,只是瞎猜!
em70
2015-09-14 18:07:19 +08:00
这贴 99%可能是广告
ipconfiger
2015-09-14 18:21:26 +08:00
@est 要做到秒级快照就有可能实现
9hills
2015-09-14 18:27:34 +08:00
@wzxjohn 我感觉阿里云技术上做不到 VMware 的 Fault Tolerance ,这个东西没有开源实现啊

但是 HA 是可以做到的,但是这个其实用户这边做就行了
9hills
2015-09-14 18:30:41 +08:00
@est vmware 是这么实现的: http://www.vmware.com/files/pdf/resources/ft_virtualization_wp.pdf

将 Input (network, user ),asynchronous I/O (disk,devices ), CPU timer events ,在备机 replay ,号称 delay 只有 1ms

碉堡了有没有,反正开源的我还没见过这么厉害的
geeklian
2015-09-14 18:33:55 +08:00
@9hills vmware 的 ft 技术可以。但是目前 cpu 限制单核,确实是利用光纤同步内存实现的。可能也就我们银行业会用。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/220530

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX