網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)

Betsy Beyer, Jennifer Petoff, Chris Jone 著、孫宇聰 譯

  • 網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-1
  • 網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-2
  • 網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-3
  • 網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-4
  • 網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-5
  • 網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-6
  • 網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-7
  • 網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-8
  • 網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-9
網站可靠性工程|Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-1

買這商品的人也買了...

商品描述

SRE 全名是 Site Reliability Engineering 網站可靠性工程

SRE 是 Google 提倡的系統管理實踐之道、指導思想,這個名詞同時也是 軟體工程師 (Software Engineer) 的角色,可以類比於傳統的維運工程師或系統工程師,但是 SRE 是用 計算機科學 和 軟體工程 手段,實踐 大型系統維運、分散式系統 的設計與開發。

- 91APP 技術經理 Rick Hwang 專文推薦

 

大型軟體系統生命週期的絕大部分都處於「使用」階段,而非「設計」或「實現」階段。那麼,為何我們總是認為軟體工程應該首要關注設計和實現呢?

Google SRE團隊的核心成員在本書中分享了他們是如何對軟體進行生命週期的整體性關注的,以及解說這樣的做法為何能夠幫助Google成功地構建、部署、監控和運維世界上現存最大的軟體系統。您可以從中學習到Google工程師在提高系統部署規模、改進可靠性和資源利用效率方面的思考方式與具體作法。任何一個想要建立、擴展大規模整合系統的人都應該閱讀本書。本書針對如何構建一個可長期維護的系統提供了非常寶貴的實踐經驗。

本書分為以下四個部分:

.簡介:說明何謂網站可靠性工程(SRE)及其與傳統IT業界作法的差異

.原則:介紹SRE日常工作背後的指導原則:SRE的工作模式、行為方式,以及平時維運工作中關注的重點等

.實踐:探討SRE管理大型分散式系統的理念和實踐典範

.管理:介紹Google的訓練與團隊協作的方式

名人推薦

「能讓所有公司受益的高科技管理實務,只有Google能夠辦到的創新。」

—Thomas A.Limoncelli, 《The Practice of Cloud System Administration》共同作者

 

「web高可用性服務管理人員必讀的一本書」

—Adrian Cockcroft, 前任Netflix雲端架構師

 

「不管是為了自己還是公司,你都應該熟讀本書並動手實踐這些理念」

—Jez Humble, 《Continuous Delivery》、《精實企業》共同作者

作者簡介

Betsy Beyer 
Google紐約分部專責SRE 的技術文件作家,之前曾為遍布全球的Google資料中心與Mountain View 硬體維運團隊撰寫文件,在搬到紐約之前,他曾擔任史丹佛大學技術寫作課程的講師。

Chris Jones
Google App Engine 的SRE。每天處理超過280億個請求,Chris之前的工作包括Google廣告統計、資料倉儲及使用者支援系統的維護,更早之前任職於學術單位的IT 部門,並參與競選資料分析,以及一些BSD核心的修改,他擁有電腦工程、經濟學及技術政策學的學位,也是一名有執照的專業工程師。

Jennifer Petoff
Google SRE 團隊的專案經理,工作地點在都柏林、愛爾蘭,她曾經負責管理大型全球專案,包括:科學研究、工程、人力資源及廣告等。

Niall Murphy
Google愛爾蘭團隊廣告SRE的負責人,投身網路業已經近20 年,目前是INEX的主席,他寫過許多科技文章與書籍,包括歐萊禮出版的《IPv6 Network Administration》以及很多RFC,目前正參與撰寫愛爾蘭網際網路發展史,他擁有電腦科學、數學,以及詩歌學的學位,目前與妻子和兩個兒子居住在都柏林。

目錄大綱

PART I 概覽

第1章 緒論

第2章 從 SRE 的角度看 Google 正式服務環境

 

PART II 指導原則

第3章 擁抱風險

第4章 服務水準目標

第5章 減少瑣事

第6章 監控分散式系統

第7章 Google 自動化系統的演進

第8章 發行工程

第9章 簡單化

 

PART Ⅲ 具體實踐

第10章 基於時間序列資料進行有效警報

第11章 on-call

第12章 有效的故障排除技巧

第13章 緊急應變

第14章 緊急事件管理

第15章 事後檢討:從失敗中學習

第16章 事件追蹤

第17章 測試可靠性

第18章 SRE 部門中的軟體工程實務

第19章 前端伺服器的負載平衡

第20章 資料中心內部的負載平衡系統

第21章 處理系統超載

第22章 處理連鎖故障

第23章 管理關鍵狀態:利用分散式一致化來提高可靠性

第24章 分散式任務排程系統

第25章 資料處理管線

第26章 資料完整性:讀寫一致

第27章 可靠地進行大規模發行

 

PART Ⅳ 管理

第28章 迅速培養 SRE 加入 on-call

第29章 處理插斷性任務

第30章 透過嵌入 SRE 的方式幫助團隊從維運超載中恢復

第31章 SRE 與其他團隊的溝通與協同合作

第32章 SRE 參與模型的演進歷程

 

PART Ⅴ 總結

第33章 其他產業的實務經驗

第34章 結語

 

附錄A 系統可用性

附錄B 正式作業環境維運過程中的實踐典範

附錄C 事件狀態範例文件

附錄D 事後檢討範例

附錄E 上線協調檢核表

附錄F 產務會議紀錄範例

 

參考文獻

索引

關於作者+出版記事