SRE 是 Site Reliability Engineering / Site Reliability Engineer 的缩写,常指“站点(或系统)可靠性工程(团队/方法)”或“站点可靠性工程师”。核心目标是用工程化方法提升线上服务的稳定性、可用性与可扩展性(例如:监控、告警、容量规划、故障应急与自动化运维)。
/ˌɛs ɑːr ˈiː/
I want to become an SRE after graduation.
我毕业后想成为一名 SRE(站点可靠性工程师)。
The SRE team reduced downtime by improving monitoring, automating deployments, and running better incident reviews.
SRE 团队通过改进监控、自动化部署、并完善故障复盘,降低了服务宕机时间。
SRE 作为一个职业与方法论名称,最早广为人知源于 Google 内部对“用软件工程思维做运维与可靠性”的实践总结;后来通过公开书籍与行业传播,逐渐成为云计算与互联网公司常见岗位/团队名称。缩写由 S(Site) + R(Reliability) + E(Engineering) 组成。