作者:
[美] Betsy Beyer
/
[美] Chris Jones
/
[美] Jennifer Petoff
/
[美] Niall Richard Murphy
译者: 孙宇聪
出版社: 电子工业出版社
出品方: 博文视点
出版年: 2016-10-1
ISBN: 9787121297267
页数: 450
装帧: 平装
定价: CNY 108.00
原作名: Site Reliability Engineering: How Google Runs Production Systems
丛书: O'Reilly动物系列(中译本)
译者: 孙宇聪
出版社: 电子工业出版社
出品方: 博文视点
出版年: 2016-10-1
ISBN: 9787121297267
页数: 450
装帧: 平装
定价: CNY 108.00
原作名: Site Reliability Engineering: How Google Runs Production Systems
丛书: O'Reilly动物系列(中译本)
内容简介 · · · · · ·
大型软件系统生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?
在本书中,Google SRE 的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助 Google 成功地构建、部署、监控和运维世界上现存很大的软件系统。通过阅读本书,读者可以学习到 Google 工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。
任何一个想要创建、扩展大规模集成系统的人都应该阅读本书。
SRE的创作者
· · · · · ·
-
孙宇聪 译者
作者简介 · · · · · ·
Betsy Beyer 是 Google 纽约负责 SRE 的一名技术文档作家。她之前曾为遍布全球的 Google 数据中心与 Mountain View 硬件运维团队编写文档。在搬到纽约之前,Betsy 是 Stanford 大学技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在 Stanford 和 Tulane 获得学历。
目录 · · · · · ·
译者序
前言
序言
第Ⅰ部分 概览
第1章 介绍
第2章 Google 生产环境:SRE视角
第Ⅱ部分 指导思想
第3章 拥抱风险
第4章 服务质量目标
第5章 减少琐事
第6章 分布式系统的监控
第7章 Google 的自动化系统的演进
第8章 发布工程
第9章 简单化
第Ⅲ部分 具体实践
第10章 基于时间序列数据进行有效报警
第11章 on-call轮值
第12章 有效的故障排查手段
第13章 紧急事件响应
第14章 紧急事故管理
第15章 事后总结:从失败中学习
第16章 跟踪故障
第17章 测试可靠性
第18章 SRE部门中的软件工程实践
第19章 前端服务器的负载均衡
第20章 数据中心内部的负载均衡系统
第21章 应对过载
第22章 处理连锁故障
第23章 管理关键状态:利用分布式共识来提高可靠性
第24章 分布式周期性任务系统
第25章 数据处理流水线
第26章 数据完整性:读写一致
第27章 可靠地进行产品的大规模发布
第Ⅳ部分 管理
第28章 迅速培养SRE加入on-call
第29章 处理中断性任务
第30章 通过嵌入SRE的方式帮助团队从运维过载中恢复
第31章 SRE与其他团队的沟通与协作
第32章 SRE参与模式的演进历程
第Ⅴ部分 结束语
第33章 其他行业的实践经验
第34章 结语
附录A 系统可用性
附录B 生产环境运维过程中的最佳实践
附录C 事故状态文档示范
附录D 事后总结示范
附录E 发布协调检查列表
附录F 生产环境会议记录示范
参考文献
索引
· · · · · · (收起)
前言
序言
第Ⅰ部分 概览
第1章 介绍
第2章 Google 生产环境:SRE视角
第Ⅱ部分 指导思想
第3章 拥抱风险
第4章 服务质量目标
第5章 减少琐事
第6章 分布式系统的监控
第7章 Google 的自动化系统的演进
第8章 发布工程
第9章 简单化
第Ⅲ部分 具体实践
第10章 基于时间序列数据进行有效报警
第11章 on-call轮值
第12章 有效的故障排查手段
第13章 紧急事件响应
第14章 紧急事故管理
第15章 事后总结:从失败中学习
第16章 跟踪故障
第17章 测试可靠性
第18章 SRE部门中的软件工程实践
第19章 前端服务器的负载均衡
第20章 数据中心内部的负载均衡系统
第21章 应对过载
第22章 处理连锁故障
第23章 管理关键状态:利用分布式共识来提高可靠性
第24章 分布式周期性任务系统
第25章 数据处理流水线
第26章 数据完整性:读写一致
第27章 可靠地进行产品的大规模发布
第Ⅳ部分 管理
第28章 迅速培养SRE加入on-call
第29章 处理中断性任务
第30章 通过嵌入SRE的方式帮助团队从运维过载中恢复
第31章 SRE与其他团队的沟通与协作
第32章 SRE参与模式的演进历程
第Ⅴ部分 结束语
第33章 其他行业的实践经验
第34章 结语
附录A 系统可用性
附录B 生产环境运维过程中的最佳实践
附录C 事故状态文档示范
附录D 事后总结示范
附录E 发布协调检查列表
附录F 生产环境会议记录示范
参考文献
索引
· · · · · · (收起)
原文摘录 · · · · · · ( 全部 )
-
Nothing here tells us how to solve problems universally, but that is the point. Stories like these are far more valuable than the code or designs they resulted in. Implementations are ephemeral, but the documented reasoning is priceless. Rarely do we have access to this kind of insights. (查看原文) —— 引自章节:Forewood -
In other words, given the relative insensitivity of the AdSense service to moderate changes in latency performance, we are able to consolidate serving into fewer geographical locations, reducing our operational overhead. (查看原文) —— 引自章节:Other service metrics
> 全部原文摘录
丛书信息
· · · · · ·
O'Reilly动物系列(中译本)(共317册),
这套丛书还有
《Excel + Python》《Node即学即用》《Web界面设计》《Kubernetes操作器》《Learning Android(中文版)》
等
。
喜欢读"SRE"的人也喜欢的电子书 · · · · · ·
支持 Web、iPhone、iPad、Android 阅读器
喜欢读"SRE"的人也喜欢 · · · · · ·
SRE的书评 · · · · · · ( 全部 19 条 )
Notes: Site Reliability Engineering
看这本书时做的笔记. 总结一下: 1. 有众多可以参考的地方, 例如 Cron 的设计, 监控的改进, 新工具的推广方法 2. 对手头的系统和工具要非常了解, 这样就可以玩出很多招数 1. 介绍 DevOps 在 Google 的实践 传统开发/运维分离的解决方案在规模扩大后沟通成本上升(“随时发布” vs...
(展开)
《SRE》读后感
原文来自:http://blog.csdn.net/xindoo/article/details/52723114 《SRE》这本书英文版已面世半年后,中文版终于面世。从4月、5月的时候,我就一直在尝试看英文版,由于自己英文水平有限,阅读进度和深度实在有限,看到中文版,对很多章节的内容才算是有了较深入的理解,一句...
(展开)
值得推荐的运维管理书籍
值得推荐和随时翻阅的运维管理工具书。作为创业公司的技术人员,经历了客户从个位数发展到近千规模,负责运维的服务器(虚拟机)数也从几台到几千台,几乎每天都有运维操作,感受的最大压力主要来自于系统服务的稳定性,而运维技术和方法的改进往往在这个过程中最容易产生明显...
(展开)
> 更多书评 19篇
论坛 · · · · · ·
在这本书的论坛里发言这本书的其他版本 · · · · · · ( 全部4 )
-
东南大学出版社 (2008)暂无评分
-
O'Reilly Media (2016)9.0分 171人读过
-
歐萊禮 (2017)暂无评分 2人读过
以下书单推荐 · · · · · · ( 全部 )
- kindle 2 (甜賽)
- 后端程序员成长阅读书目 (YigWoo)
- 团队图书馆 (dexteryy)
- 神仙的精选 (神仙)
- 公司图书馆说要买技术书 (李斯特杨)
谁读这本书? · · · · · ·
二手市场
· · · · · ·
订阅关于SRE的评论:
feed: rss 2.0










1 有用 山姆 2017-01-14 19:58:01
买一本放在工位上,常常审视自己的项目是否到这种标准
0 有用 xychen 2019-07-05 20:13:22
3 有用 用户名为Null 2020-10-27 22:00:21
对我个人来说,越了解DevOps,反而越心累,因为我越来越清楚,DevOps并不是纯技术的问题,在没有管理层领导的支持下,甚至无从下手。
3 有用 风花雪月的龙龙 2017-08-06 22:15:38
读这种书 就像在听大牛们演讲 总有一些观点让你bling bling
1 有用 ehoc 2017-04-25 19:54:20
指导思想一章总结的很好,“主动制造故障”去避免过度的依赖很有魄力。