TOP
0
0
魅麗。花火原創小說66折起
Greenplum:從大數據戰略到實現(簡體書)
滿額折

Greenplum:從大數據戰略到實現(簡體書)

人民幣定價:119 元
定  價:NT$ 714 元
優惠價:87621
領券後再享89折
無庫存,下單後進貨(採購期約45個工作天)
可得紅利積點:18 點
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次

商品簡介

這是一本系統剖析Greenplum開源大數據平臺的書籍,也是大數據戰略制定與落地的實戰型指導書!

本書圍繞數字原生和雲計算、大數據、人工智能驅動的企業數字化轉型的核心訴求,從商業和技術實戰視角分享了業界領先企業大數據戰略的深刻思考,並提供了大數據戰略從制定到落地的全面指導。既有高階數字化戰略高度對大數據的解讀,又有技術實戰角度對使用 Greenplum 大數據和機器學習平臺實現大數據戰略的實踐指南。

本書作者來自Greenplum 核心研發團隊,致力於以開源、開放的理念和先進的技術推進大數據產業生態,助力企業以更低的成本、更高的效率實現數字化轉型,並基於Greenplum 開源社區培養大數據產業更多人才。

本書分為四個部分。

第一部分介紹大數據戰略。其中,第 1 章將分享作者對於人工智能、大數據和雲計算之間關係的理解以及對人和人工智能的思考。第 2 章將介紹進取型企業為什麼需要大數據戰略以及如何建立大數據戰略。

第二部分介紹大數據平臺。其中,第 3 章將以數據平臺演進歷史和未來趨勢為主題,描述三次整合的背景及影響,介紹選擇大數據平臺需要考慮的因素,以及為什麼Greenplum 是理想的大數據平臺。第 4 章將介紹 Greenplum 數據庫快速入門指南。第 5章將介紹 Greenplum 架構的主要特點和核心引擎。第 6 章將介紹數據加載、數據聯邦和數據虛擬化。第 7 章將介紹 Greenplum 的資源管理以及對混合負載的支持。

第三部分介紹機器學習。其中,第 8 章介紹 Greenplum 的各種過程化編程語言(用戶自定義函數),用戶可以使用 Python、R、Java 等實現用戶自定義函數,還可以通過容器化技術實現自定義函數的安全性和隔離性。第 9 章將介紹 Greenplum 內建的機器學習庫 MADlib,數據科學家可以使用內建的 50 多種機器學習算法用 SQL 對數據進行高級分析,並介紹如何擴展 MADlib 以實現新算法。第 10 章和第 11 章將分別介紹Greenplum 如何對文本數據和時空數據(GIS)進行存儲、計算和分析。第 12 章將介紹Greenplum 豐富的圖計算能力。

第四部分介紹運維管理和數據遷移。其中,第 13 章會介紹各種監控和管理工具及相關企業級產品。第 14 章介紹數據庫備份和恢復。第 15 章和第 16 章將分別介紹如何從Oracle 和 Teradta 遷移到 Greenplum。

作者簡介

馮雷(Ray Feng) ,
Pivotal中國常務董事(Managing Director)兼研發中心總經理。Pivotal中國成立至今,馮雷主持了近十億人民幣投資的中國運營和研發體系。作為Pivotal全球產品關鍵領導人,為Pivotal公司的數字化理念建立及其對應的Cloud Foundry和Greenplum產品提供戰略輸入。馮雷於2010年從美國矽谷歸國,在世界500強公司EMC旗下組建了Pivotal中國。在歸國之前,馮雷曾在500強企業甲骨文(Oracle)總部從事雲計算產品研發。作為雲計算早的一批從業人員,幫助甲骨文雲計算資源調度領域成為意見領袖。擁有多項雲計算專利。


姚延棟 ,
Pivotal中國研發中心副總裁,在Pivotal公司全球範圍內為Greenplum技術發展路線提供戰略輸入。聯合創建了Pivotal中國研發中心,發起了Greenplum中國開源社區,奠定了包括阿裡雲、騰訊雲和百度雲在內的廣大開源Greenplum用戶群。在Pivotal中國招募並建設了Greenplum和HAWQ團隊成為大數據和機器學習的意見領袖,培養團隊成員同時成為Apache和Greenplum代碼提交者。在創建Greenplum/Pivotal中國之前, 曾在Sun Microsystem 與 Symantec 系統和存儲部門工作多年。擁有多項國內外雲計算和大數據專利。
高小明 ,
Pivotal中國研發中心Greenplum產品總監,先後參與和負責數據分析協作平臺Chorus、開源PaaS雲平臺Cloud Foundry、MPP數據庫Greenplum等產品的開發、運維和技術推廣。目前著重關注PaaS雲平臺與大數據平臺支撐下的數字化轉型、微服務架構以及容器化與混合負載給數據產品帶來的機遇和挑戰。
楊瑜 ,
Pivotal中國研發中心Greenplum工程技術總監,長期從事 Greenplum 內核的研發和管理工作,先後參與和負責基於Greenplum內核的機器學習庫MADlib的研發、Greenplum 內核和PostgreSQL內核持續歸併等工作,並參與組建Greenplum文本挖掘引擎GPText團隊,有豐富的一線內核研發經驗。

名人/編輯推薦

Greenplum是業界領先的開源MPP大數據平臺。2019年,Greenplum被Gartner評為全球排名第三的分析型數據庫和排名第四的實時分析數據庫,且為前十名中開源的產品。中國信息通信研究院評測的14款MPP數據庫中約半數基於Greenplum。本書由Greenplum核心研發團隊精心編寫,融入了團隊十餘年來對雲計算、大數據和人工智能驅動的企業數字化轉型、先進技術發展趨勢以及產品研發的深刻思考,對Greenplum這款快速成長的開源大數據平臺進行了全方位深度解讀,無論是企業決策者,還是大數據相關的技術人員,都能從本書中獲益。

隨著數字資源持續爆炸式的增長,各行各業都在探索如何更好地利用數字資源,抓住機遇,實現數字化轉型。在此過程中,有很多亟待解決的問題,其中,選擇什麼樣的大數據平臺是至關重要的決定。Greenplum 是業界領先的並行數據庫MPP平臺;經過15年的打磨,Greenplum以其計算速度快、擴展性強、接口豐富、原生支持豐富的大數據分析算法以及靈活支持多種存儲協議等特點成為當今大數據分析平臺的優先選擇。本書作者長期從事大數據平臺領域的創新和研發工作,作為Greenplum的主要開發者,對大數據平臺技術以及整個大數據產業鏈有豐富的實操經驗和獨到的見解。相信這本著作會令致力於大數據應用開發、設計、科研和教學的讀者感到受益匪淺。
-――戴爾科技集團全球副總裁,中國研發集團總經理 劉偉博士
本書作者均為 Greenplum 內核開發團隊核心成員,在大數據和機器學習行業具有豐富經驗,全球視野和技術前瞻性都毋庸置疑。我也有幸和作者團隊多次深度合作,相信他們精心打造的這本書可以給讀者全新的啟發,用正確的理念和方法論來迎接大數據和人工智能時代的挑戰與機遇。
-――騰訊雲副總裁 王龍



阿裡雲選擇開源Greenplum數據庫發佈數據庫產品主要基於三個方面的考慮:首先,Pivotal在Greenplum上持續投入了近十年的時間,打造出這款優秀的開源數據庫產品。一個優秀的數據庫引擎需要很長時間的沉澱和巨大的投入才能形成;第二,Greenplum是一個成熟的產品,特別在SQL的兼容性方面尤其出色,而SQL的兼容性會在很大程度上影響用戶的體驗和數據的遷移;第三,用戶需要的不僅是引擎,更是一個完整的生態,Greenplum已經形成了完整的開源生態,並培養了很多的用戶。在Greenplum生態中形成了很多優秀的BI 工具和ET工具,用戶在使用時變得更加便捷。
-――余鋒 阿裡雲數據庫研究員


Greenplum作為Pivotal公司投入研發十多年的 MPP產品,能夠完美地滿足高性能並行計算、海量數據存儲及人工智能數據分析等需求。在金融、電信、零售等領域有著廣泛應用。
Greenplum自2015年開源以來,產品迭代速度逐漸加快,推出了很多值得期待的新特性,開源社區也得到了快速發展,幫助越來越多的企業獲得成功。在開源之初,百度即將 Greenplum引入內部使用,現已支撐了金融、搜索和教育等多個核心業務,同時也在百度雲上推出了基於Greenplum的雲服務。
本書由Greenplum研發夢之隊精心編寫,不僅深度解密其背後的設計理念和實現細節,還給讀者帶來了諸多場景的應用實踐經驗,是Greenplum使用、開發、運維人員的良好參考資料。
-――賴寶華 百度數據庫團隊技術經理

目次



前 言

第一部分 大數據戰略

第1章 ABC:人工智能、大數據和雲計算 2

1.1 再談雲計算 2

1.1.1 雲計算由南向轉為北向 2

1.1.2 P層雲的精細化發展 3

1.1.3 大數據系統在雲中部署不斷朝南上移 4

1.2 大數據 5

1.2.1 從CRUD到CRAP 5

1.2.2 MPP(大規模並行計算) 7

1.2.3 大數據系統 8

1.2.4 當大數據遇到雲計算 10

1.3 人工智能 11

1.3.1 模型化方法 12

1.3.2 AI的發展史 14

1.3.3 對AI應用的正確預期 15

1.4 ABC之間的關係 16

1.5 AI和人 18

1.5.1 經驗與邏輯 18

1.5.2 公理化的邏輯系統 21

1.5.3 圖靈機和可計算數 25

1.5.4 認知邊界上的考量 28

第2章 建立基於大數據的高階數字化戰略 32

2.1 基於雲原生應用的數字化戰略 32

2.2 大數據和AI:企業未來的終極

競爭點 34

2.3 大數據戰略的落地 36

2.3.1 大數據和AI人才 36

2.3.2 AI驅動的開發方法和文化 37

2.3.3 大數據基礎設施的建設 39

2.4 大數據和AI的展望 41

第二部分 大數據平臺

第3章 數據處理平臺的演進 45

3.1 前數據處理時代 45

3.2 早期的電子數據處理 47

3.2.1 電子計算機的出現 47

3.2.2 軟件 47

3.3 數據庫 49

3.3.1 數據模型 50

3.3.2 數據獨立性和高級數據處理語言 54

3.3.3 數據保護 57

3.3.4 數據庫早期發展過程中的困境 57

3.4 NoSQL數據庫 58

3.4.1 NoSQL出現的背景 58

3.4.2 NoSQL產品的共性 60

3.4.3 NoSQL的分類 61

3.5 SQL數據庫的回歸 62

3.5.1 NoSQL與SQL的融合 62

3.5.2 Hadoop不等於大數據 63

3.5.3 SQL從未離開 64

3.6 集成數據處理和分析平臺 65

3.6.1 數據類型 65

3.6.2 業務場景 66

3.6.3 集中還是分散 67

3.7 數據平臺的選型 68

3.8 小結 69

第4章 Greenplum數據庫快速入門 72

4.1 Greenplum數據庫的發展和現狀 72

4.2 Greenplum數據庫的特性 73

4.3 Greenplum數據庫的組成 75

4.4 Greenplum數據庫的安裝與部署 76

4.4.1 準備工作 76

4.4.2 安裝Greenplum 77

4.4.3 初始化Greenplum數據庫 80

4.5 Greenplum數據庫的常用操作 82

4.6 Greenplum數據庫的常用命令 83

4.6.1 gpstart 83

4.6.2 gpstop 83

4.6.3 gpstate 83

4.6.4 gpactivatestandby 84

4.6.5 gpconfig 84

4.6.6 gpdeletesystem 84

4.7 小結 85

第5章 Greenplum的架構和核心引擎 86

5.1 Greenplum的架構 86

5.1.1 Greenplum Master 87

5.1.2 Greenplum Segment 87

5.1.3 Greenplum Interconnect 87

5.1.4 Greenplum Standby Master 87

5.1.5 Greenplum Mirror Segment 88

5.2 Greenplum查詢計劃 88

5.2.1 單機查詢計劃 89

5.2.2 並行查詢計劃 90

5.3 Greenplum數據庫查詢處理的過程 95

5.3.1 Greenplum數據庫的主要功能組件 95

5.3.2 Greenplum數據庫查詢的執行流程 96

5.4 小結 97

第6章 從ETL到數據聯邦和數據虛擬化 98

6.1 Greenplum中的ETL 99

6.1.1 PostgreSQL的ETL工具箱 99

6.1.2 GPLOAD 100

6.2 Greenplum的數據聯邦 104

6.2.1 dblink簡介 104

6.2.2 外部表 107

6.2.3 GPFDIST外部表 109

6.2.4 可執行外部表 119

6.2.5 Greenplum的S3外部表 120

6.2.6 GPHDFS外部表 127

6.2.7 Spark連接器 129

6.2.8 Gemfire連接器 129

6.3 Greenplum的數據虛擬化框架 130

6.3.1 PXF的架構 130

6.3.2 PXF的環境配置 131

6.3.3 GPHDFS與PXF比較 132

6.4 小結 133

第7章 混合負載和資源管理 134

7.1 混合負載的機遇和挑戰 134

7.2 混合負載的業務和技術要求 136

7.3 資源管理 139

7.4 併發管理 145

7.5 小結 146

第三部分 機器學習與數據分析

第8章 Greenplum中的過程化編程語言 149

8.1 PL/Python 150

8.1.1 PL/Python簡介 150

8.1.2 受信任的過程化編程語言 151

8.1.3 安裝Python包 152

8.1.4 安裝Greenplum數據計算Python包集合 153

8.1.5 類型轉換 153

8.1.6 PL/Python函數中的數據共享 154

8.2 PL/R 155

8.2.1 PL/R簡介 156

8.2.2 安裝R包 158

8.2.3 安裝Greenplum數據計算R包集合 158

8.3 PL/Container 158

8.3.1 PL/Container簡介 159

8.3.2 一個簡單的例子 159

8.3.3 PL/Container的基本操作方法 162

8.3.4 PL/Container實踐總結 166

8.3.5 關於PL/Container的開發 167

8.4 小結 167

第9章 MADlib 機器學習庫 168

9.1 MADlib入門 168

9.1.1 MADlib簡介 168

9.1.2 MADlib的特點 169

9.1.3 MADlib與其他機器學習算法庫的比較 172

9.1.4 MADlib的快速安裝 173

9.2 MADlib的架構 174

9.2.1 SQL用戶接口 174

9.2.2 Python驅動函數 175

9.2.3 C++機器學習算法實現 175

9.2.4 C++數據庫抽象層 176

9.3 MADlib應用 177

9.3.1 數據預處理 177

9.3.2 監督學習 178

9.3.3 非監督學習 184

9.3.4 時間序列 187

9.3.5 自定義機器學習算法 188

9.4 小結 191

第10章 Greenplum半結構化文本數據分析 192

10.1 GPText文本分析概述 192

10.1.1 GPText數據提取 192

10.1.2 GPText的文本處理、索引流程和高階分析 193

10.2 GPText內置的全文檢索引擎:Apache SolrCloud 194

10.3 GPText架構:高速並行索引和查詢 195

10.4 數據準備 197

10.5 GPText的使用:簡單的SQL和UDF函數 198

10.6 GPText的安裝 200

10.7 GPText索引 201

10.7.1 創建GPText索引 201

10.7.2 加載GPText索引 204

10.7.3 GPText 增減索引列 205

10.8 GPText簡單查詢 205

10.8.1 GPText 查詢的語法 205

10.8.2 GPText 臨近查詢 206

10.8.3 GPText top查詢 206

10.9 GPText高級查詢 207

10.9.1 GPText Facet 查詢 207

10.9.2 GPText 高亮查詢結果 209

10.10 GPText分區表查詢 210

10.11 GPText對自然語言處理的支持 211

10.12 GPText定制化索引 213

10.13 GPText管理工具 214

10.14 GPText用於文本挖掘和分析 215

10.15 小結 216

第11章 地理空間數據分析和處理 218

11.1 概述 218

11.1.1 什麼是地理空間數據 218

11.1.2 地理空間數據應用與分析中的挑戰 220

11.2 Greenplum PostGIS 223

11.2.1 Greenplum PostGIS 簡介 223

11.2.2 安裝Greenplum PostGIS 組件 224

11.2.3 第一次使用 227

11.3 Greenplum PostGIS應用實例 228

11.3.1 GIS數據準備 228

11.3.2 使用Greenplum PostGIS空間數據操作符進行GIS數據查詢 230

11.3.3 使用Greenplum PostGIS的UDF進行GIS數據分析 233

11.3.4 柵格數據 235

11.4 小結 239

第12章 Greenplum數據庫與圖計算 240

12.1 圖的概念 240

12.2 圖的應用 241

12.2.1 電子電路設計自動化 241

12.2.2 搜索引擎 242

12.2.3 社交網絡 242

12.3 圖數據的處理 243

12.4 Greenplum對圖數據的支持 244

12.5 MADlib中的圖結構和算法 245

12.5.1 圖的表示 245

12.5.2 MADlib支持的圖算法 245

12.5.3 MADlib圖算法詳解 246

12.6 小結 277

第四部分 Greenplum的運維和遷移

第13章 Greenplum的監控和管理 281

13.1 監控Greenplum集群的狀態 282

13.1.1 gpstate命令 282

13.1.2 系統表gp_segment_conf?iguration 283

13.1.3 Segment的故障恢復和再平衡 284

13.1.4 常用的監控命令 287

13.2 管理Greenplum集群 289

13.2.1 參數配置 289

13.2.2 訪問管理 290

13.2.3 統計信息 292

13.2.4 管理表膨脹 294

13.3 Greenplum指令中心(GPCC) 297

13.3.1 GPCC簡介 297

13.3.2 可視化監控 298

13.3.3 查詢監控和分析 301

13.3.4 工作負載管理 305

13.3.5 監控告警系統 307

13.4 小結 309

第14章 Greenplum數據庫的備份、恢復和遷移 310

14.1 非並行數據庫備份 310

14.2 非並行數據庫恢復 313

14.3 並行數據庫備份 313

14.4 並行數據庫恢復 316

14.5 高效的並行數據庫備份和恢復工具gpbackup/gprestore 317

14.6 新一代Greenplum數據遷移工具GPCOPY 322

14.7 小結 324

第15章 從Oracle遷移到Greenplum 326

15.1 概述 326

15.2 Oracle與Greenplum的架構對比 327

15.2.1 Oracle的主要痛點 329

15.2.2 Greenplum的優勢 330

15.3 從Oracle遷移到Greenplum的流程 331

15.3.1 遷移場景 332

15.3.2 遷移過程 334

15.3.3 特殊場景分析 344

15.4 小結 352

第16章 從Teradata遷移到Greenplum 353

16.1 Teradata產品和用戶面臨的問題 353

16.2 從Teradata遷移到Greenplum的可行性 354

16.3 如何從Teradata遷移到Greenplum 356

16.3.1 遷移流程概述 356

16.3.2 Teradata數據卸載及DDL導出規範 357

16.3.3 數據操作語句轉換 364

16.3.4 函數轉換 367

16.3.5 ETL應用工具連接轉換 369

16.3.6 其他應用接口遷移 372

16.4 特殊場景 373

16.4.1 事前微批去重 373

16.4.2 事後批量去重 374

16.5 小結 374

附錄A Greenplum社區 375

附錄B 外部表實例 380

附錄C Greenplum的SSL證書 386

術語表 390

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 621
無庫存,下單後進貨
(採購期約45個工作天)

暢銷榜

客服中心

收藏

會員專區