TOP
GOGO開學趣,參考書應有盡有
Python大數據分析從入門到精通(簡體書)
滿額折

Python大數據分析從入門到精通(簡體書)

商品資訊

人民幣定價:79 元
定價
:NT$ 474 元
優惠價
87412
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點 :12 點
商品簡介
作者簡介
名人推薦
目次

商品簡介

本書結合Python在數據分析領域的特點,介紹如何在數據平臺上集成使用Python。本書內容分為3大部分。第1部分(第1~3章)為搭建開發環境和導入測試數據;第2部分(第4~12章)為Python對HDFS、Hive、Pig、HBase、Spark的操作,主要是對常用API的說明;第3部分(第13~16章)是在前面章節的基礎上,介紹如何進行數據的分析、挖掘、可視化等內容。 本書不僅闡述了Python在大數據平臺上的應用技巧,而且關於大數據平臺管理和操作的介紹說明貫穿全書,因此對於希望學習大數據知識的讀者,本書同樣非常適合。

作者簡介

蘭一傑,資深軟件工程師、項目經理,對Python大數據、人工智能、深度學習等有深入研究並能靈活整合運用。多年從事通過Python實施數據化運維、主數據項目、大數據分析項目的開發工作,涉及國內各大房地產企業、金融機構、政府機關等領域。

名人推薦

通過3層技術架構+3套經典數據+5個大數據平臺工具/引擎的Python庫+2個集成方向,教你輕鬆玩轉大數據分析!
一本書教你輕鬆玩轉Python大數據分析!
1.理論與實踐相結合:先對功能模塊進行理論講解,然後使用代碼進行演示說明,由淺入深層層推進,易學易懂;2.技術的整合性強:對大數據平臺的各項功能模塊進行集成使用,以實現對不同需求使用合理技術進行處理;3.體系的完備性好:大數據平臺中數據的導入、分析、挖掘、可視化等均使用Python處理,系統學習項目開發的全流程;4.附贈學習資源:免費贈送相關知識點視頻教程,提供書中所有案例源代碼及相關數據信息,供讀者參考練習、快速上手。

目次

目 錄

第一章 為什麼選擇用Python11.1 易於使用3
1.2 兼容Hadoop3
1.3 可擴展和靈活性3
1.4 良好的社區支持和開發環境3
1.5 在數據分析領域的優勢4
1.6 總結4


第二章 大數據開發環境的搭建52.1 安裝大數據集成環境HDP6
2.2 安裝Spark環境(Windows)9
2.3 自行安裝大數據開發環境10
2.4 總結21


第三章 構建分析數據223.1 分析數據的說明23
3.2 導入數據到HDP SandBox中25
3.3 導入自安裝的環境中使用28
3.4 導入Windows的Spark中29
3.5 導入 Northwind 數據庫30
3.6 總結32


第四章 Python對Hadoop的操作334.1 Snakebite的說明34
4.2 HDFS命令說明36
4.3 Snakebite Client類的使用38
4.4 Snakebite CLI的使用40
4.5 總結42


第五章 Python對Hive的操作435.1 Hive說明44
5.2 使用PyHive47
5.3 使用Python編寫Hive UDF49
5.4 Impyla的使用51
5.5 Hive SQL調優方法52
5.6 總結53


第六章 Python對HBase的操作546.1 HBase說明55
6.2 HBase Shell命令57
6.3 HappyBase說明62
6.4 HappyBase的使用66
6.5 總結70


第七章 Python集成到Pig717.1 Pig說明72
7.2 Pig Latin的使用74
7.3 Python Pig的整合78
7.4 總結81


第八章 PySpark Shell應用838.1 操作步驟84
8.2 應用對象84
8.3 Spark核心模塊86
8.4 Spark Shell的使用87
8.5 PySpark Shell的使用92
8.6 總結95


第九章 PySpark對RDD操作969.1 Spark RDD說明97
9.2 RDD API說明101
9.3 在API函數中使用Lambda表達式108
9.4 從HDFS中讀取數據並以SequenceFile格式存儲110
9.5 讀取CSV文件處理並存儲112
9.6 讀取Json文件處理114
9.7 通過RDD計算圓周率115
9.8 查看RDD計算的狀態116
9.9 總結118


第十章 PySpark對DataFrame的操作11910.1 Spark DataFrame說明120
10.2 DataFrame API總述122
10.3 DataFrame數據結構API126
10.4 DataFrame數據處理API140
10.5 Postgresql和DataFrame145
10.6 CSV和DataFrame147
10.7 Json和DataFrame149
10.8 Numpy、Pandas和DataFrame151
10.9 RDD和DataFrame152
10.10 HDFS和DataFrame153
10.11 Hive和DataFrame154
10.12 HBase和DataFrame155
10.13 總結157


第十一章 PySpark對Streaming的操作15811.1 Spark Streaming說明159
11.2 Spark Streaming API160
11.3 網絡數據流165
11.4 文件數據流167
11.5 Kafka數據流171
11.6 Flume數據流173
11.7 QueueStream數據流174
11.8 使用StreamingListener監聽數據流175
11.9 總結177


第十二章 PySpark SQL17812.1 關於Spark SQL179
12.2 Spark SQL相關API180
12.3 Spark SQL使用步驟189
12.4 Postgresql和Spark SQL190
12.5 CSV和Spark SQL192
12.6 Json和Spark SQL193
12.7 HDFS和Spark SQL194
12.8 Hive和Spark SQL195
12.9 UDF和Spark SQL197
12.10 Streaming和Spark SQL199
12.11 Spark SQL優化200
12.12 總結201


第十三章 分析方法及構架的說明20213.1 統計的概念和數據可視化203
13.2 數據分析方法的探討206
13.3 開發構架說明209
13.4 總結整合說明210


第十四章 集成分析21414.1 SQL窗口函數的說明215
14.2 Hive SQL分析221
14.3 Spark SQL分析225
14.4 HBase SQL分析229
14.5 對接Numpy、Pandas的分析232
14.6 對接Blaze分析241
14.7 總結244


第十五章 數據挖掘24515.1 關於機器學習246
15.2 PySpark機器學習包248
15.3 特徵的抽取、轉換和選擇250
15.4 PySpark機器學習包的使用256
15.5 集成TensorFlow277
15.6 集成scikit-learn279
15.7 總結282


第十六章 數據可視化28316.1 標簽雲284
16.2 Zeppelin的使用289
16.3 Mathplotlib的使用293
16.4 Superset的使用301
16.5 總結308


附 錄.309

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 412
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區