[图文]Google SRE 出书了，简单总结目前已看的一些内容

2016-03-31 14:31:38 +08:00

yangdehua

原文发在公众号，图文并茂，这里貌似弄个图都很麻烦

https://mp.weixin.qq.com/s?__biz=MzI4NjE2NTA1OQ==&mid=401873938&idx=1&sn=233c8272c0fcbb26e4c6c03859c845ea&scene=0&key=710a5d99946419d9929ff81b710b5ca91533b09cb6815a0fa52591457f003d8ebdc11625b1b9ae7ae69bad36f31f19a6&ascene=0&uin=MTUzNzgyNQ%3D%3D&devicetype=iMac+MacBookPro12%2C1+OSX+OSX+10.10.4+build(14E46)&version=11020201&pass_ticket=wo7UgGH1%2BEx%2BBSk23E1I4mnnT8caTSkk9hwE7m79RTk%3D

Google 出了一本 Site Reliability Engineering 的书。这本书讲的是 How Google Runs Production Systems 。

回顾了上一家公司(阿里技术保障部 DBA 团队)的 5 年，经历了天猫多次双十一，还在支付宝 DBA 团队待过大半年的时间。深刻的理解到一个庞大的网站的稳定性，需要一支身经百战的运维技术团队来操盘。

Google 作为互联网公司的前排兵，能出这样一本书，对于运维人员来说，真的非常值得一读。

这本书的中心思想

1.建设和运维分布式系统是大规模生产基础设施根本，在这里面增加这几个要求:可扩展，可靠，高效.要达到这些要求，需要大量的优秀的设计和试错。

2.这本书收集了很多论文和文章，由谷歌的网站可靠性小组的主要成员讲解，在过去的十年如何成功从这些深水走过。

3.从这本书，将学习如何谷歌持续监控并部署在世界上一些最大的软件系统，它的网站可靠性工程师团队如何学习和中断后可改善，以及他们如何平衡冒险 VS 可靠性，错误的预算。

回到这本书，主要分了四个部分

1.网站可靠性保证是神马？和传统 IT 行业惯例的有哪些不同？

2.检测模式，行为和关切的领域，影响着一个网站可靠性工程师的工作

3.既要理解原理，又能实际操作，这就是 SRE 工程师的工作:构建和操作大型分布式计算系统？

4.探索谷歌的最佳实践培训,沟通,和会议,或许有适合您的团队可以借鉴的

前面几章的总结

第五章，消除苦逼的活，这里真是写到我心坎里头了。我相信做过运维的人苦逼的活没少干。苦逼的活其实是挑战个人的能力的地方，可否化繁为简，可否从一堆屎一样的事情里面做出一朵花来。

先写着这么多

对了，附上书的链接 http://shop.oreilly.com/product/0636920041528.do

2558 次点击

所在节点

2 条回复

strwei

2016-03-31 16:24:07 +08:00

为什么壳子做得那么丑

yangdehua

2016-03-31 16:57:26 +08:00

@strwei 什么壳子？

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/267638

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX