TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
SRE生存指南:系統中斷響應與正常運行時間最大化(簡體書)
滿額折

SRE生存指南:系統中斷響應與正常運行時間最大化(簡體書)

人民幣定價:79 元
定  價:NT$ 474 元
優惠價:87412
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:12 點
相關商品
商品簡介
名人/編輯推薦
目次

商品簡介

站點可靠性工程(Site Reliability Engineering,簡稱SRE)是一個令人興奮的新興領域,它專注於如何確保系統穩定、可靠地運行。本書基於一個金字塔層次結構模型,深入淺出地介紹了關於SRE 的方方面面,涉及監控、事故響應與回顧、測試與發佈、容量規劃、開發、用戶體驗設計,以及貫穿其中的溝通技巧。本書是SRE 工程師、DevOps 工程師、運維工程師和系統管理員不可或缺的參考資料;軟件架構師、軟件工程師、用戶體驗設計師也能從本書中獲取關於SRE 的相關知識。

名人/編輯推薦

√ 作者長期服務于對服務中斷非常敏感的大型互聯網公司,總結出一套久經考驗的方法論,專用于監控現代Web服務、設置警報、評估針對生產事件的響應機制,以及短時間內恢復網站宕機事故。


√ 除了別出心裁增設SRE面試一章,精華內容還包括監控災難性故障|向團隊發出緊急宕機警報|分析生產事件應對策略|構建屬�自己的自動化測試工具或相關軟件|預測瓶頸以改善用戶體驗。


√ 阿裡巴巴高可用架構團隊負責人游驥|蘑菇街平臺技術總監趙成|《SRE:Google運維解密》譯者(谷歌前SRE)作序力薦,ThoughtWorks資深技術專家馮文輝傾情獻譯。


√ 不僅涵蓋對服務中斷的反應――揭示安全測試和發佈軟件所需的工具和策略、制訂長期增長計劃,還預測了未來的瓶頸所在,完整覆蓋網站全線全週期危機。


√ 全書系統呈現由冗余和容災|容量規劃|系統自動保護|失敗預案|監控能力|發佈與變更管理|故障應急處理等領域核心話題構成的SRE技術藍圖。



推薦序一

近20年是互聯網技術飛速發展的20年。互聯網技術框架從單機、一體機演進到分布式的多層、多組件架構,原本由5個以內的技術組件構建的業務系統,到今天可能要有上百個技術組件來構建。為了在較低的成本基礎上保障服務的擴展能力,很多互聯網企業放棄了穩定性更強但也更昂貴的商業技術,轉而使用開源、自研的技術。互聯網業務的快速發展不僅直接帶來了流量、安全等方面的不確定性,同時也促進了技術架構的快速演進――技術架構變得越來越複雜,而這些因素都將導致系統不可用發生概率的大幅度提升。當人類的工作、生活變得越來越依賴互聯網時,一旦網站系統不可用,其造成的影響和損失就將難以想像:在遠古時代,人類能夠習慣沒有自來水,也沒有電的生活;但今天如果停水、停電,很多人都會無法適應。

互聯網正在逐步演變成像供水、供電設施那樣的基礎設施,網站系統的可用性變得至關重要。在這樣的大背景下,SRE的概念被提了出來,隨著互聯網在各行各業的深度滲透,SRE快速發展成了一個熱門領域。幾年前大家對SRE的概念還停留在Google對它的簡單介紹上,如今,國內的一大批互聯網企業都在嘗試構建自己的SRE體系,SRE逐漸成為互聯網企業的標配,該領域也迎來了百花齊放的盛況。阿裡巴巴也正是在這個階段構建了自己的SRE體系,其為阿裡集團業務和雲客戶業務持續提供通用的高可用技術產品、解決方案的方法論,以及專業化的業務可用性運維能力。

任何事物的發展、壯大都需要有相應的方法論進行指引。SRE首先是一套方法論,它從傳統運維中將與穩定性相關的工作內容提煉出來進行昇華,構建了SRE的方法論體系。冗余和容災、容量規劃、系統自動保護、失敗預案、監控能力、發佈與變更管理、故障應急處理等構成了SRE領域的藍圖,並不斷地快速迭代著。方法論的落地實施離不開相關組織和個人,傳統的運維工程師在SRE方法論的薰陶下在系統可用性方面的技能得到了極大的提高,其中一部分傳統運維工程師“進化”成了技術含金量極高的SRE工程師,他們聚合在一起,構成了專職的SRE團隊。同樣,方法論的落地還需要有一系列配套的技術產品和工具來支撐,與SRE相關的技術體系在近幾年也得到迅速發展,特別是隨著AI技術的發展、演進,兩者結合產生了奇妙的“化學反應”,使系統可用性保障的效率和性能都獲得了極大的提升。

本書是一本SRE指南手冊,它不僅完善地介紹了與SRE相關的理論體系,還從實踐的維度闡述了SRE的技術體系應該如何構建。對於關注網站可靠性的研發和運維人員,或者其他想深度瞭解SRE的技術人員來說,這是一本非常值得閱讀的參考書。

阿裡巴巴高可用架構團隊負責人 游驥


推薦序二

在我看來,SRE是指導網站系統穩定性得到保障和落地的佳實踐方案,沒有之一。

這套方案源自Google及國外先進互聯網企業的實踐,以及在其實踐基礎上提煉出來的寶貴經驗;Google將這套方案推廣分享到業界,得到了業界很多企業的嘗試和應用,且都取得了很不錯的效果;這套方案經過了非常廣泛的實踐檢驗,包括我們自己也在不斷地對其實踐和檢驗著。

坦率地講,對於Google SRE中所涉及的技術,業界絕大多數企業都是學不來的,主要原因在於業務類型及業務規模相差巨大。但是, SRE的很多指導原則,卻適用於不同的企業和業務場景。

這其中我認為,SLO和事後回顧是核心內容,SLO可以幫助我們設定開發和運維人員需要共同遵守的指標,包括圍繞SLO應該如何設定相應的流程、機制和決策原則等。事後回顧告訴我們,“故障是常態,正常才是異常”,所以面對故障,我們更多的應該是從中進行學習和改進,把故障作為提升系統性能的切入點,而不是故障之後的相互指責和推諉扯皮。

本書給出了指導原則之外的更多細節介紹和實踐方法,可以說是在現有的SRE知識體系下,針對SRE內容的非常好的補充。

開卷有益,希望本書能夠帶給業界更多的指導意義。

蘑菇街 平臺技術總監 趙成


推薦序三

自從2015年有幸負責翻譯並推廣《SRE:Google運維解密》一書以來,SRE理念已經逐漸從運維圈走向了更為廣泛的IT圈,也逐漸從互聯網企業文化圈傳播到了傳統行業的IT文化圈,這是非常令人振奮的事情。

自《SRE:Google運維解密》成書以來,我已經有幸受邀與各行各業的運維主管、技術負責人等進行了十幾次極有啟發性的交流。運維人員長期面臨著責任重、壓力大、成長難的問題;雲平臺、電商的搶購和秒殺活動、視頻網站等新業務的飛速發展帶來了優秀的高流量、高併發的業務需求;而大數據、人工智能、機器學習等新技術的大量使用,則意味著指數級增長的資源管理需求;越來越精細的運營環境意味著對系統穩定性及其他性能的要求也越來越高。傳統的運維技術、思路、方法論、組織結構已經不再適用。SRE理念作為Google對業務運維體系的反思與整理,不僅梳理了在新業務形態下運維人員應該承擔的責任,更給運維人員指明了一條職業發展路線。

運維人員常常熬夜甚至通宵工作,天天救“火”,卻只能作為執行者,無法真正從“火災”隱患中走出來。在這樣的情況下,研發自動化工具,對內提供服務平臺來應對業務的飛速增長;關注有效監控與有效警報,將業務系統白盒化、透明化,甚至達到故障自愈、無人運維的狀態。這樣運維人員才能解放出更多的精力,從而去關注更高層次的系統性能架構調優、容量的規劃與製備等。

與《SRE:Google運維解密》一樣,本書也是由Google前SRE工程師寫成的,它們相互輝映,互相補充。本書將SRE理念與當下普遍、流行的開源技術、開源軟件相結合,理論指導實踐,實踐檢驗理論,內容翔實,值得運維人員仔細閱讀。也希望本書能將SRE理念帶給更多的從業人員,共勉。

《SRE:Google運維解密》譯者 孫宇聰

目次

目錄
1 簡介 1
SRE簡史 2
SRE是什麼 3
關於這本書 7
以SRE作為新項目的框架 9
小結 12
2 監控 13
為什麼要監控 13
檢測應用程序 16
度量什麼 23
SLIs、SLOs和錯誤預算簡介 26
錯誤預算 27
收集和保存監控數據 29
輪詢應用程序 29
推送應用程序 32
展示監控信息 35
任意查詢 35
圖表 36
儀錶板 37
聊天機器人 38
管理和維護監控數據 38
溝通 39
他們知道有監控嗎 39
小結 40
參考資料 41
3 事故響應 42
什麼是事故 43
什麼是事故響應 45
警報 47
什麼時候發起警報 48
怎麼發出警報 49
向誰發出警報 54
隨時待命 55
溝通 57
事故指揮系統 59
在哪裡溝通 61
恢復系統 61
警報解除 63
小結 64
4 事後回顧 65
什麼是事後回顧 65
為什麼寫事後回顧報告 66
何時寫事後回顧報告 68
開展事故分析 69
如何寫事後回顧報告 71
總結 71
影響 72
時間 73
根本原因 74
行動項 75
附錄 77
停止事後指責 77
舉行事後回顧會議 79
分析以往的事後回顧報告 80
MTTR與MTBF 81
警報疲勞 81
討論過去的服務中斷 81
小結 82
參考資料 82
5 測試和發佈 83
測試 84
測試內容 87
發佈 100
何時發佈 101
回滾 104
自動化 104
持續 105
小結 106
6 容量規劃 107
企業財務簡介 108
為什麼需要規劃 110
風險管理與期望管理 111
定義一個規劃 112
當前的容量是多少 113
何時達到容量極限 115
應該如何更改容量 119
執行規劃 125
架構――性能變化的根源 126
技術作為利潤中心和採購 128
小結 128
7 構建工具 129
尋找項目 131
定義項目 133
RDD 133
設計文檔 136
項目計劃 138
例子 139
回顧會與站會 141
工作分配 142
構建項目 143
關於編寫代碼的建議 143
關注點分離 144
長期工作 145
筆記本 148
文檔與維護項目 149
小結 150
8 用戶體驗 151
設計和用戶體驗簡介 155
現實世界的交互設計 157
用戶測試 160
挑選一種體驗 161
設計測試 162
尋找要測試的人 162
開發者體驗 163
工具經驗 164
績效預算 164
安全性 166
身份認證 167
授權 168
風險概況 168
網絡釣魚 169
ACM道德準則 170
小結 171
參考資料 172
9 網絡基礎 173
互聯網 173
發送一個HTTP請求 175
DNS 175
以太網和TCP/IP 179
HTTP 186
curl與wget 189
網絡監控工具 194
netstat 194
nc 195
tcpdump 196
小結 197
參考資料 197
10 Linux和雲基礎 198
Linux基礎 198
一切皆是文件 199
進程是什麼 206
syscalls 207
構建自己的工具 213
雲基礎 214
虛擬機 215
容器 216
負載均衡 218
自動伸縮 219
存儲 219
隊列與發佈/訂閱 220
伸縮單元 221
架構面試示例 222
小結 226
參考資料 226

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 412
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區