[图文]Google SRE 出书了,简单总结目前已看的一些内容

2016-03-31 14:31:38 +08:00
 yangdehua

原文发在公众号,图文并茂,这里貌似弄个图都很麻烦

https://mp.weixin.qq.com/s?__biz=MzI4NjE2NTA1OQ==&mid=401873938&idx=1&sn=233c8272c0fcbb26e4c6c03859c845ea&scene=0&key=710a5d99946419d9929ff81b710b5ca91533b09cb6815a0fa52591457f003d8ebdc11625b1b9ae7ae69bad36f31f19a6&ascene=0&uin=MTUzNzgyNQ%3D%3D&devicetype=iMac+MacBookPro12%2C1+OSX+OSX+10.10.4+build(14E46)&version=11020201&pass_ticket=wo7UgGH1%2BEx%2BBSk23E1I4mnnT8caTSkk9hwE7m79RTk%3D

Google 出了一本 Site Reliability Engineering 的书。这本书讲的是 How Google Runs Production Systems 。

回顾了上一家公司(阿里技术保障部 DBA 团队)的 5 年,经历了天猫多次双十一,还在支付宝 DBA 团队待过大半年的时间。深刻的理解到一个庞大的网站的稳定性,需要一支身经百战的运维技术团队来操盘。

Google 作为互联网公司的前排兵,能出这样一本书,对于运维人员来说,真的非常值得一读。

这本书的中心思想

1.建设和运维分布式系统是大规模生产基础设施根本,在这里面增加这几个要求:可扩展,可靠,高效.要达到这些要求,需要大量的优秀的设计和试错。

2.这本书收集了很多论文和文章,由谷歌的网站可靠性小组的主要成员讲解,在过去的十年如何成功从这些深水走过。

3.从这本书,将学习如何谷歌持续监控并部署在世界上一些最大的软件系统,它的网站可靠性工程师团队如何学习和中断后可改善,以及他们如何平衡冒险 VS 可靠性,错误的预算。

回到这本书,主要分了四个部分

1.网站可靠性保证是神马?和传统 IT 行业惯例的有哪些不同?

2.检测模式,行为和关切的领域,影响着一个网站可靠性工程师的工作

3.既要理解原理,又能实际操作,这就是 SRE 工程师的工作:构建和操作大型分布式计算系统?

4.探索谷歌的最佳实践培训,沟通,和会议,或许有适合您的团队可以借鉴的

前面几章的总结

第五章 ,消除苦逼的活,这里真是写到我心坎里头了。我相信做过运维的人苦逼的活没少干。 苦逼的活其实是挑战个人的能力的地方,可否化繁为简,可否从一堆屎一样的事情里面做出一朵花来。

先写着这么多

对了,附上书的链接 http://shop.oreilly.com/product/0636920041528.do

2522 次点击
所在节点    分享发现
2 条回复
strwei
2016-03-31 16:24:07 +08:00
为什么壳子做得那么丑
yangdehua
2016-03-31 16:57:26 +08:00
@strwei 什么壳子?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/267638

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX