主节点是否高可用, 也就是主节点挂了一个,集群是不是还能正常工作,是不是还能更新部署应用, 应用在没有控制中心的情况下还能不能容错。
工作节点池是否高可用,部分节点或整个可用区的节点跪了的情况,工作负载还能不能运行,能否通过自动添加新节点实现集群自愈,还是需要人工介入
集群配置是否安全,内部组件通信是否使用和 TLS 加密和受信证书; 用户和应用是否是给予最小集群操作权限;容器默认安全策略是否设置正确; 节点是否访问了不必要的控制组件,对 etcd 的访问是否受控和是否进行认证
集群内的服务是否安全, 如果公网能访问,是否有认证有授权。 集群 API 访问是否严格限制
集群规划是否合理, 是否符合 CNCF 制定的标准
集群节点是否由配置管理,而不是人肉管理的。 例如操作系统内核更新, 安全补丁,等行为是怎么实现的
集群数据是否有恰当的备份, 备份是否包含所有的持久化存储, 是否有数据恢复方案,这些方案这多久测试一次
对于运行中的集群是怎么维护的? 新节点是怎么加的? 已经有节点的配置变更是怎么做的? k8s 是怎么更新的, 有没有动态扩容, 怎么执行策略的(Enforce policies)
整理自 https://www.oreilly.com/library/view/cloud-native-devops/9781492040750/
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.