我的 k8s 集群又双叒叕挂了😅

不知道自己的集群是第几次挂了😪而且每次总有不同的原因导致集群挂掉

这次是自己一台 2T 的服务器（主节点之一）剩余空间在低于 200G 的时候，触发了节点的 disk pressure （ k8s 默认剩余 10%就触发。。。。。）。然后这台服务器上所有 pods 状态都变为 Eviction 全部被驱逐，然后就成了 pod 被驱逐，又创建的循环。等注意到的时候，集群已经出现了 5000 多个 Eviction 的 pods 。（ PS：这时候我的集群都还有反应

更改 kubelet 参数，将触发的限制从磁盘剩余 10%改成 10GiB 后本以为就恢复了，但是不知为什么更改之后集群直接就挂了（ kubectl 提示服务未运行）。因为我是多主节点，于是连上另一台主节点想看看什么情况，另一台主节点上输入 kubectl get nodes 后直接卡死，没法获得信息，并且这台主节点机器还 cpu 占用 100%（得亏我这台主节点 vps 是跑在 OVH 上的，要是其他提供商这样占用 cpu 估计直接就把我机器封了）。说好的 k8s 多主节点高可用呢？怎么你一台主节点炸了整个集群都炸了？

然后看看 2T 的主节点执行 log ，似乎是 etcd 不明原因启动错误，折腾半天才好。自建 k8s 集群后这一年多最大感觉就是累感不爱，k8s 这东西的复杂真不是人类可以掌握，不是专心运维的话坑太多，这玩意存在在世上真的能让更多人变得幸福吗

BeautifulSoap

2023-08-14 21:13:53 +08:00

@azusematsuri 不是专心运维用 k8s 真的太多细节和坑了。自己是 n 台机子要建梯子，网站，挂 bt ，网盘之类的，最开始用的 docker 手动一台台跑，实在太麻烦了而且经常有机子失联并且涉及到证书管理都非常麻烦，就直接上了 k8s 。于是进了另一个坑
。。。

@ExplodingFKL 个人用来说我对监控的必要性还是有点怀疑的，主要是个人使用的时候很多问题不是监控就能解决的问题。比如这次发生问题的原因是我在 bt 里下了一个合计 1.7TB 的种子，下完后服务器硬盘只剩不到 200GB ，然后集群服务直接暴毙。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/965138