TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
Hadoop大數據分析實戰(簡體書)
滿額折

Hadoop大數據分析實戰(簡體書)

人民幣定價:129 元
定  價:NT$ 774 元
優惠價:87673
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:20 點
相關商品
商品簡介
目次

商品簡介

本書詳細闡述了與Hadoop 3大數據分析相關的基本解決方案,主要包括Hadoop簡介、大數據分析概述、基於MapReduce的大數據處理、Python-Hadoop科學計算和大數據分析、R-Hadoop統計數據計算、Apache Spark批處理分析、Apache Spark實時數據分析、Apache Flink批處理分析、Apache Flink流式處 理、大數據可視化技術、雲計算簡介、使用亞馬遜Web服務等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。 本書適合作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學教材和參考手冊。

目次

目 錄
第1章 Hadoop簡介 1
1.1 Hadoop分布式文件系統 1
1.1.1 高可用性 2
1.1.2 內部DataNode均衡器 4
1.1.3 糾刪碼 4
1.1.4 端口號 4
1.2 MapReduce框架 5
1.3 YARN 6
1.3.1 機會型容器 7
1.3.2 YARN時間軸服務v.2 7
1.4 其他變化內容 9
1.4.1 最低Java版本 9
1.4.2 Shell腳本重寫 9
1.4.3 覆蓋客戶端的JAR 10
1.5 安裝Hadoop 3 10
1.5.1 準備條件 10
1.5.2 下載 10
1.5.3 安裝 12
1.5.4 設置無密碼ssh 12
1.5.5 設置NameNode 13
1.5.6 啟動HDFS 13
1.5.7 設置YARN服務 17
1.5.8 糾刪碼 18
1.5.9 內部DataNode平衡器 21
1.5.10 安裝時間軸服務v.2 21
1.6 本章小結 27
第2章 大數據分析概述 29
2.1 數據分析簡介 29
2.2 大數據簡介 30
2.2.1 數據的多樣性 31
2.2.2 數據的速度 32
2.2.3 數據的容量 32
2.2.4 數據的準確性 32
2.2.5 數據的可變性 33
2.2.6 可視化 33
2.2.7 數值 33
2.2 使用Apache Hadoop的分布式計算 33
2.4 MapReduce框架 34
2.5 Hive 35
2.5.1 下載並解壓Hive二進制文件 37
2.5.2 安裝Derby 37
2.5.3 使用Hive 39
2.5.4 SELECT語句的語法 41
2.5.5 INSET語句的語法 44
2.4.6 原始類型 44
2.5.7 複雜類型 45
2.5.8 內建運算符和函數 45
2.5.9 語言的功能 50
2.6 Apache Spark 51
2.7 基於Tableau的可視化操作 52
2.8 本章小結 54
第3章 基於MapReduce的大數據處理 55
3.1 MapReduce框架 55
3.1.1 數據集 57
3.1.2 記錄讀取器 58
3.1.3 映射 59
3.1.4 組合器 59
3.1.5 分區器 60
3.1.6 混洗和排序 60
3.1.7 reducer任務 60
3.1.8 輸出格式 61
3.2 MapReduce作業類型 61
3.2.1 SingleMapper作業 63
3.2.2 SingleMapperReducer作業 72
3.2.3 MultipleMappersReducer作業 77
3.2.4 SingleMapperReducer作業 83
3.2.5 應用場景 84
3.3 MapReduce模式 88
3.3.1 聚合模式 88
3.3.2 過濾模式 90
3.3.3 連接模式 91
3.4 本章小結 100
第4章 Python-Hadoop科學計算和大數據分析 101
4.1 安裝操作 101
4.1.1 安裝Python 101
4.1.2 安裝Anaconda 103
4.2 數據分析 110
4.3 本章小結 134
第5章 R-Hadoop統計數據計算 135
5.1 概述 135
5.1.1 在工作站上安裝R並連接Hadoop中的數據 135
5.1.2 在共享服務器上安裝R並連接至Hadoop 136
5.1.3 利用Revolution R Open 136
5.1.4 利用RMR2在MapReduce內執行R 137
5.2 R語言和Hadoop間的集成方法 138
5.2.1 RHadoop―在工作站上安裝R並將數據連接至Hadoop中 139
5.2.2 RHIPE―在Hadoop MapReduce中執行R語言 139
5.2.3 R和Hadoop流 139
5.2.4 RHIVE―在工作站上安裝R並連接至Hadoop數據 140
5.2.5 ORCH―基於Hadoop的Oracle連接器 140
5.3 數據分析 140
5.4 本章小結 165
第6章 Apache Spark批處理分析 167
6.1 SparkSQL和DataFrame 167
6.2 DataFrame API和SQL API 171
6.2.1 旋轉 176
6.2.2 過濾器 177
6.2.3 用戶定義的函數 178
6.3 模式―數據的結構 178
6.3.1 隱式模式 179
6.3.2 顯式模式 179
6.3.3 編碼器 181
6.4 加載數據集 182
6.5 保存數據集 183
6.6 聚合 183
6.6.1 聚合函數 184
6.6.2 窗口函數 194
6.6.3 ntiles 195
6.7 連接 197
6.7.1 連接的內部工作機制 199
6.7.2 混洗連接 199
6.7.3 廣播連接 199
6.7.4 連接類型 200
6.7.5 內部連接 201
6.7.6 左外連接 202
6.7.7 右外連接 203
6.7.8 全外連接 204
6.7.9 左反連接 205
6.7.10 左半連接 206
6.7.11 交叉連接 206
6.7.12 連接的操作性能 207
6.8 本章小結 208
第7章 Apache Spark實時數據分析 209
7.1 數據流 209
7.1.1 “至少一次”處理 211
7.1.2 “最多一次”處理 211
7.1.3 “僅一次”處理 212
7.2 Spark Streaming 214
7.2.1 StreamingContext 215
7.2.2 創建StreamingContext 215
7.2.3 啟用StreamingContext 216
7.2.4 終止StreamingContext 216
7.3 fileStream 217
7.3.1 textFileStream 217
7.3.2 binaryRecordsStream 217
7.3.3 queueStream 218
7.3.4 離散流 219
7.4 轉換 222
7.4.1 窗口操作 223
7.4.2 有狀態/無狀態轉換 226
7.5 檢查點 227
7.5.1 元數據檢查點 228
7.5.2 數據檢查點 228
7.6 驅動程序故障恢復 229
7.7 與流平臺的互操作性(Apache Kafka) 230
7.7.1 基於接收器的方案 230
7.7.2 Direct Stream 232
7.7.3 Structured Streaming 233
7.8 處理事件時間和延遲日期 236
7.9 容錯示意圖 237
7.10 本章小結 237
第8章 Apache Flink批處理分析 239
8.1 Apache Flink簡介 239
8.1.1 無界數據集的連續處理 240
8.1.2 Flink、數據流模型和有界數據集 241
8.2 安裝Flink 241
8.3 使用Flink集群UI 248
8.4 批處理分析 251
8.4.1 讀取文件 251
8.4.2 轉換 254
8.4.3 groupBy 258
8.4.4 聚合 260
8.4.5 連接 261
8.4.6 寫入文件 272
8.5 本章小結 274
第9章 Apache Flink流式處理 275
9.1 流式執行模型簡介 275
9.2 利用DataStream API進行數據處理 277
9.2.1 執行環境 278
9.2.2 數據源 278
9.2.3 轉換 282
9.3 本章小結 300
第10章 大數據可視化技術 301
10.1 數據可視化簡介 301
10.2 Tableau 302
10.3 圖表類型 313
10.3.1 線狀圖 314
10.3.2 餅圖 314
10.3.3 柱狀圖 315
10.3.4 熱圖 316
10.4 基於Python的數據可視化 317
10.5 基於R的數據可視化 319
10.6 大數據可視化工具 320
10.7 本章小結 321
第11章 雲計算簡介 323
11.1 概念和術語 323
11.1.1 雲 323
11.1.2 IT資源 324
11.1.3 本地環境 324
11.1.4 雲使用者和雲供應商 324
11.1.5 擴展 324
11.2 目標和收益 325
11.2.1 可擴展性的提升 326
11.2.2 可用性和可靠性的提升 326
11.3 風險和挑戰 327
11.3.1 安全漏洞 327
11.3.2 減少運營治理控制 328
11.3.3 雲提供商之間有限的可移植性 328
11.4 角色和邊界 328
11.4.1 雲供應商 328
11.4.2 雲使用者 328
11.4.3 雲服務持有者 328
11.4.4 雲資源管理員 329
11.5 雲特徵 329
11.5.1 按需使用 330
11.5.2 無處不在的訪問 330
11.5.3 多租戶機制(和資源池機制) 330
11.5.4 彈性 330
11.5.5 監測應用狀態 330
11.5.6 彈性計算 331
11.6 雲交付模型 331
11.6.1 基礎設施即服務 331
11.6.2 平臺即服務 331
11.6.3 軟件即服務 332
11.6.4 整合雲交付模型 332
11.7 雲部署模型 333
11.7.1 公共雲 333
11.7.2 社區雲 334
11.7.3 私有雲 334
11.7.4 混合雲 334
11.8 本章小結 335
第12章 使用亞馬遜Web服務 337
12.1 Amazon Elastic Compute Cloud 337
12.1.1 彈性Web計算 337
12.1.2 對操作的完整控制 338
12.1.3 靈活的雲託管服務 338
12.1.4 集成 338
12.1.5 高可靠性 338
12.1.6 安全性 338
12.1.7 經濟性 338
12.1.8 易於啟動 339
12.1.9 亞馬雲及其鏡像 339
12.2 啟用多個AMI實例 340
12.2.1 實例 340
12.2.2 AMI 340
12.2.3 區域和可用區 340
12.2.4 區域和可用區概念 341
12.2.5 區域 341
12.2.6 可用區 341
12.2.7 可用區域 342
12.2.8 區域和端點 342
12.2.9 實例類型 343
12.2.10 Amazon EC2和亞馬遜虛擬私有雲 343
12.3 AWS Lambda 344
12.4 Amazon S3簡介 345
12.4.1 Amazon S3功能 345
12.4.2 全面的安全和協從能力 346
12.4.3 就地查詢 346
12.4.4 靈活的管理機制 346
12.4.5 最受支持的平臺以及最大的生態系統 347
12.4.6 簡單、方便的數據傳輸機制 347
12.4.7 備份和恢復 347
12.4.8 數據存檔 347
12.4.9 數據湖和數據分析 348
12.4.10 混合雲存儲 348
12.4.11 原生雲應用程序數據 348
12.4.12 災難恢復 348
12.5 Amazon DynamoDB 349
12.6 Amazon Kinesis Data Streams 349
12.6.1 加速日誌和數據提要的輸入和處理 350
12.6.2 實時度量和報告機制 350
12.6.3 實時數據分析 350
12.6.4 複雜的數據流處理 350
12.6.5 Kinesis Data Streams的優點 350
12.7 AWS Glue 351
12.8 Amazon EMR 352
12.9 本章小結 363

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 673
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區