分享几个最佳实践,让你用好云的竞价/SPOT 计算实例来降低成本

311 天前
 wan0573

AutoMQ 是一款开源的云原生 Kafka 解决方案,以上经验都已经在 AutoMQ 中实践并且应用于生产,如果以上内容对大家有帮助,或者想进一步了解 AutoMQ 是如何用好云的,可以给我们开源项目点个赞,加入我们社区群关注第一手信息。关于 spot 实例应用的详细原文可以在 AutoMQ 公众号内查看。

开源项目 github 地址: https://github.com/AutoMQ/automq-for-kafka

今天是开年第一天,也预祝各位龙年大吉,事事顺利

1168 次点击
所在节点    程序员
8 条回复
zhouxinyu
311 天前
用好 Spot 实例是用云的最佳实践,欢迎大家一起讨论使用 Spot 实例面临的各种问题啊。。。
ysicing
311 天前
spot 回收通知时间太短了
wan0573
311 天前
@ysicing 不同云策略不一样,gcp 和 azure 的通知时间确实非常短。如果你用阿里云或者 aws ,预留优雅停止的时间还是比较充足的。aws 有重平衡信号,会大概提前数十分钟就通知,阿里云的话预留 5 分钟时间优雅停止,也比较足够了。当前现状来看,确实不是所有应用都适合 spot 实例的,有些应用没有比较好的弹性能力或者没法做成无状态的话,就不适用了。
sampeng
311 天前
spot 我们曾经碰到坑点,反复伸缩。就是弹出来又缩回去。引起集群的极度不稳定。找了 aws 的工程师也没查出个所以然。。
zhouxinyu
310 天前
@sampeng 你们是什么场景呀,有混合 on-demand 实例使用吗?
wan0573
309 天前
@sampeng 是不是用了弹性策略?如果是基于 metric 的弹性策略,在集群规模比较小的时候,扩缩策略设置不合理会引发频繁扩缩,我们是在缩的时候额外增加了条件,只有在缩了以后不满足扩的条件才会真正的缩容,避免这种抖动。
sampeng
309 天前
@zhouxinyu 一个独立的伸缩组,当时是给大数据做数据分析用,想得挺美好。


@wan0573 必然不是。横竖就是不定时的机器没了,然后又出来一台。不用弹性伸缩,自己写程序来控制才搞定。。
wan0573
309 天前
@sampeng 如果全部用 spot 实例,集群确实会时不时抖动,这个根据所在 region 和 zone 的机器库存有关。你的情况应该就是机器被回收了,然后为了满足 asg 的容量,会重新创建新的 spot 实例。如果业务没法容忍集群比较多的抖动的话,配合一定比例的 on-demand 实例比较好,兼顾成本与稳定。od 实例还可以套用 saving plan ,更加实惠点。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1016260

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX