某天项目 k8s 发布,两个副本,开启了就绪以及存活探针,新 pod 就绪且 consul 上线,旧的 pod 也删除了,突然新的 pod 全部 consul 下线且未就绪,请教一下老哥原因

176 天前
 zhuzhibin
如提,问了运维,只说是因为我们服务健康检查不通过导致的,但是我的疑问是我开启了存活以及就绪,为什么旧的也杀掉了,新的也检查就绪且 consul 也上线了,为什么突然又全部下线,感觉是流水线盘点就绪以及存活逻辑有问题
1691 次点击
所在节点    Kubernetes
6 条回复
zhuzhibin
176 天前
就是 readinessProbe 检查就绪了,突然又不通过把全部 pod consul 下线了
FoxRiverMan
176 天前
可以看下 POD 日志,应该是服务就绪启动后又 CrashLoopBackOff
mephisto
176 天前
探针检测就是体检,通过只能表示那一刻正常. 一会后又跑挂了,得去看日志为什么没通过,各种原因都有可能。比如只能硬 50s, 那后面肯定是被咔了啊,为什么只能去查原因。
morphyhu
176 天前
pod crash 了. 程序运行出错.
dreamusername
176 天前
https://kubernetes.io/zh-cn/docs/tasks/configure-pod-container/configure-liveness-readiness-startup-probes/#define-readiness-probes 看文档,最合理的推断是服务过了探针后,自己出错了,如果在运维层面加强的话,需要再加一个 livenessProbe 来判断服务的存活,这需要程序提供可用的接口,当程序健康检查异常,则会终止这个 Pod ,然后重新拉起一个,不过这样做没办法保留现场,不利于排查问题,特别是程序代码原因导致 crash ,则会反复终止 Pod 、拉起 Pod 。
LanLiang
176 天前
你的意思是 pod 服务在 consul 侧下线? 但是在 K8S pod 正常?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1054337

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX