[SREcon18 Americas] 我的推荐清单（运维、SRE、DevOps、分布式系统相关） - V2EX

Home Sign Up Sign In

This topic created in 2960 days ago, the information mentioned may be changed or developed.

SREcon18 Americas 最近放出了视频资料，我整理后，觉得值得看的 Talk 如下：

听力不好的同学（比如我），推荐打开 Youtube 自动生成的英文字幕。
部分主题没有被列入，选题和推荐指数纯属个人口味偏好，没有任何原因。

1. [Workshop] Containers from Scratch ⭐️⭐️⭐️⭐️

Workshop 是动手环节，这个主题是让你从头实现容器，对理解容器的原理很有帮助。

详细的动手步骤，请参考 https://github.com/Fewbytes/rubber-docker
动手前，可以先读下 PPT: Linux Primitives

2. [Workshop] How to Build a Distributed System in 3 Hours ⭐️⭐️⭐️

这个 Workshop 来自 Google，让你在三小时内设计一个 N+2 的多地域分布式系统，难度系数很高。建议学过 MIT 6.824 后再来看这个。

3. [Workshop] Ansible for SRE Teams ⭐️⭐️⭐️

就是一个 Ansible 实战指南，对 Ansible 感兴趣的可以了解下：https://github.com/Eronarn/deploying-applications-with-ansible。

从我个人的角度，我觉得中小规模的公司，使用 Ansible 自动化是一个相当不错的选择。

4. [Workshop]Tech Writing 101 for SREs ⭐️⭐️

如何写技术文章，如故障报告、文档之类，参考 https://lisafc.github.io/tw101-reading/ ，不过这种文章得翻译下才行。

5. [Workshop]Chaos Engineering Bootcamp ⭐️⭐️

Netflix 的 Chaos Engineering 也算是一个招牌了，就和 Baidu 的 AIOps 一样，有兴趣的可以看看。

6. If You Don ’ t Know Where You ’ re Going, It Doesn ’ t Matter How Fast You Get There ⭐️⭐️⭐️

偏向 IT 团队管理，介绍怎么评价效能，设定目标等。比如对变更，他提出了四个指标：部署频率应该 on demand、全量部署耗时 < 1h、MTTR < 1h、变更导致服务异常率 < 15%。

对于需要带领一个运维团队的同学，建议观看。

7. Stable and Accurate Health-Checking of Horizontally-Scaled Services ⭐️⭐️⭐️⭐️

对大规模水平扩展的服务，怎么做稳定而又精确的健康检查？做过相关事情的同学应该有所体会，这个问题并没有看起来那么简单。推荐有类似困扰或对分布式系统监控有兴趣的同学了解下。

8. Don ’ t Ever Change! Are Immutable Deployments Really Simpler, Faster, and Safer? ⭐️⭐️⭐️

最早的服务部署，基本都是原地更新（增量或者全量），而在容器化时代，部署方式变成了创建-销毁-重新创建模式，容器部署后不再改变，只有销毁重建。所以题目才说现在是 Immutable Deployments，但是这种部署方式真的可以更加简单、快速和安全么？

9. Lessons Learned from Our Main Database Migrations at Facebook ⭐️⭐️

用 Facebook 自己的经历推荐他们的 MyRocks （需要翻墙），基于 RocksDB 引擎的 MySQL。对分布式的关系数据库有兴趣的，可以看看。

10. Leveraging Multiple Regions to Improve Site Reliability: Lessons Learned from Jet.com ⭐️⭐️⭐️

多地域实践经验总结，比较实用。

11. Lessons Learned from Five Years of Multi-Cloud at PagerDuty ⭐️⭐️

PageDuty 的 Multi-Cloud 实践，有兴趣的可以看。

12. Help Protect Your Data Centers with Safety Constraints ⭐️⭐️⭐️⭐️⭐️

讲述了 Google 如何控制变更引入的风险，思路比较新颖，提出了使用一个 sanity check API 来对变更进行管控。

13. Real World SLOs and SLIs: A Deep Dive ⭐️⭐️

讲述了一些现实场景下的 SLO 和 SLI 的设定的例子，对不知道怎么给自己服务设定的，可以参考下。

14. Learning at Scale Is Hard! Outage Pattern Analysis and Dirty Data ⭐️⭐️

使用机器学习的方法进行故障诊断的一些探索性的想法。

15. Containerization War Stories ⭐️

Pinterest 容器化碰到的一些坑。

16. Monitoring DNS with Open-Source Solutions ⭐️⭐️

其实就是对开源监控系统的一个评测。

Data Collection: Packetbeat, Collectd, DSC, Fievel, and GoPassiveDNS
DB engines: Prometheus, Druid, ClickHouse, InfluxDB, ElasticSearch, and OpenTSDB
Visualization: Kibana, Grafana, and Graphite Web

17. Security as a Service ⭐️

安全即服务，嘛我不是安全团队的，不感兴趣。

18. "Capacity Prediction" instead of "Capacity Planning": How Uber Uses ML to Accurately Forecast Resource Utilization ⭐️⭐️⭐️

Uber 使用机器学习进行“容量预测”，取代以前的“容量规划”的一些探索。容量很复杂，这个仅仅是一个探索方向。

19. Distributed Tracing, Lessons Learned ⭐️

分布式 Trace 的一些心得。

20. Know Thy Enemy: How to Prioritize and Communicate Risks ⭐️⭐️⭐️

认识和管理风险，这个是 Google CRE 团队的入门文章。看过《 Google SRE 》的就会发现大部分书里都提过。

21. Building Shopify's PaaS on Kubernetes ⭐️

K8s 实战经验<_<

22. Automatic Metric Screening for Service Diagnosis ⭐️⭐️⭐️

陈老师的故障根因诊断！

23. Approaching the Unacceptable Workload Boundary ⭐️⭐️

关于容量和工作负载的文章，如果你对性能瓶颈、压测感兴趣，可以看看。

2 replies • 2018-07-02 16:27:26 +08:00

1

Etuloser

Jun 6, 2018

感谢分享，mark

2

kylechou94

Jul 2, 2018

谢谢分享

About · Help · Advertise · Blog · API · FAQ · Solana · 1052 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 38ms · UTC 18:53 · PVG 02:53 · LAX 11:53 · JFK 14:53
♥ Do have faith in what you're doing.