我的 k8s 集群又双叒叕挂了😅

2023-08-14 15:10:50 +08:00
 BeautifulSoap

不知道自己的集群是第几次挂了😪而且每次总有不同的原因导致集群挂掉

这次是自己一台 2T 的服务器(主节点之一)剩余空间在低于 200G 的时候,触发了节点的 disk pressure ( k8s 默认剩余 10%就触发。。。。。)。然后这台服务器上所有 pods 状态都变为 Eviction 全部被驱逐,然后就成了 pod 被驱逐,又创建的循环。等注意到的时候,集群已经出现了 5000 多个 Eviction 的 pods 。( PS:这时候我的集群都还有反应

更改 kubelet 参数,将触发的限制从磁盘剩余 10%改成 10GiB 后本以为就恢复了,但是不知为什么更改之后集群直接就挂了( kubectl 提示服务未运行)。因为我是多主节点,于是连上另一台主节点想看看什么情况,另一台主节点上输入 kubectl get nodes 后直接卡死,没法获得信息,并且这台主节点机器还 cpu 占用 100%(得亏我这台主节点 vps 是跑在 OVH 上的,要是其他提供商这样占用 cpu 估计直接就把我机器封了)。说好的 k8s 多主节点高可用呢?怎么你一台主节点炸了整个集群都炸了?

然后看看 2T 的主节点执行 log ,似乎是 etcd 不明原因启动错误,折腾半天才好。自建 k8s 集群后这一年多最大感觉就是累感不爱,k8s 这东西的复杂真不是人类可以掌握,不是专心运维的话坑太多,这玩意存在在世上真的能让更多人变得幸福吗

6304 次点击
所在节点    程序员
46 条回复
OceanBreeze
2023-08-14 15:13:26 +08:00
不是专业运维,用云服务的版本不好么
BeautifulSoap
2023-08-14 15:16:26 +08:00
@OceanBreeze 这是我个人的 n 台服务器/vps 组的集群,用来跑各种 bt/梯子/自建网盘的。云服务的 k8s 托管费用太高不至于上
choury
2023-08-14 15:20:14 +08:00
etcd 挂了,请求肯定卡死了,cpu 满了要看是那个进程占用的,如果是 apiserver 的话,应该要限制下 qps ,防止这种情况下各种请求无脑重试
yulgang
2023-08-14 15:33:57 +08:00



😁
BeautifulSoap
2023-08-14 15:41:39 +08:00
@yulgang 😭
Abirdcfly
2023-08-14 16:08:49 +08:00
proxychains
2023-08-14 17:11:26 +08:00
@Abirdcfly but no 'H' found in 'kubernetes' :(
azusematsuri
2023-08-14 18:37:13 +08:00
自建 k8s 运维练手攒攒经验挺好的
不过你这个需求实在是杀鸡用牛刀了
ExplodingFKL
2023-08-14 19:15:14 +08:00
不上监控的吗? prometheus 、alertmanager 搞起来
doublemine
2023-08-14 19:36:07 +08:00
阁下可曾听过 k3s ?
jecvay
2023-08-14 19:40:09 +08:00
很有趣啊 lz, 感谢分享
arloor
2023-08-14 21:00:20 +08:00
@doublemine k3s 真的很香,文档也很好(英文文档)
BeautifulSoap
2023-08-14 21:01:27 +08:00
@doublemine 我集群就是用 k3s 建的😈
zzl22100048
2023-08-14 21:12:25 +08:00
我这节点挂了就直接删掉重建。。。
用 autok3s 管理的
BeautifulSoap
2023-08-14 21:13:53 +08:00
@azusematsuri 不是专心运维用 k8s 真的太多细节和坑了。自己是 n 台机子要建梯子,网站,挂 bt ,网盘之类的,最开始用的 docker 手动一台台跑,实在太麻烦了而且经常有机子失联并且涉及到证书管理都非常麻烦,就直接上了 k8s 。于是进了另一个坑
。。。

@ExplodingFKL 个人用来说我对监控的必要性还是有点怀疑的,主要是个人使用的时候很多问题不是监控就能解决的问题。比如这次发生问题的原因是我在 bt 里下了一个合计 1.7TB 的种子,下完后服务器硬盘只剩不到 200GB ,然后集群服务直接暴毙。
flyqie
2023-08-14 21:19:07 +08:00
所以你到底用的是 K8S 还是 K3S ?
BeautifulSoap
2023-08-14 21:27:11 +08:00
@flyqie 用 k3s 建的 k8s 集群啊。而且"K3s - Lightweight Kubernetes" ,人家 k3s 官网自己就这么自居的
flyqie
2023-08-14 21:32:03 +08:00
@BeautifulSoap #16

懂了,个人很少接触到这种说法。。

身边接触到的 K8S 基本指的都是单纯的 K8S 软件,并没指 K8S 体系。。
mogging
2023-08-14 21:46:14 +08:00
K8E 也不错,之前一个讲师开发的
ysicing
2023-08-14 21:46:21 +08:00
k3s + mysql 就很稳哈哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/965138

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX