ry_wang
2019-02-27 11:08:12 +08:00
这两年我们组主要的一个工作就是自行开发了内部的配置管理平台,负责 CDN 服务器的日常管理。目前覆盖服务器几万台,每天落到 Agent 端的任务接近 100 万次
难点主要由以下四个,花费了我们大量的时间和精力。
1. 网络连通性。CDN 节点的网络条件比较极端,各种无法互联互通。为此我们还单独实现了一套代理集群,供自己和其他业务使用。
2. 状态一致性。Agent/Server 间数据的一致性问题,资产、任务等一系列信息
3. Agent 系统资源占用。
4. 安全性。尽量避免用户直接执行 SHELL 命令,而是统一使用我们的封装。同时 SHELL JOB 将所有命令进行了封装,可能引起危险的操作全都堵死。
楼主说的这几个问题。
1. APP 更新及存活检查。我们参考了 open-falcon 的设计,采用 Agent+Updater 的模式,互备检测激活
2. 通信交互一期我们采用了 HTTP 的定时主动上报方式,不过目前已经在做迁移到 UDP 的准备工作
3. 这个和业务逻辑相关了,靠 Agent 服务发现或者 Server 主动下发都可以。
PS,我之前也发过招聘贴,一直有效,大家踊跃投简历呀