TOP
1/1
無庫存,下單後進貨(採購期約45個工作天)
Python+Spark 2.0+Hadoop機器學習與大數據實戰(簡體書)
  • Python+Spark 2.0+Hadoop機器學習與大數據實戰(簡體書)

  • ISBN13:9787302490739
  • 出版社:清華大學出版社(大陸)
  • 作者:林大貴
  • 裝訂/頁數:平裝/519頁
  • 規格:23.5cm*16.8cm (高/寬)
  • 版次:一版
  • 出版日:2018/01/01
人民幣定價:99元
定  價:NT$594元
優惠價: 87517
可得紅利積點:15 點

無庫存,下單後進貨(採購期約45個工作天)

商品簡介

名人/編輯推薦

目次

本書從淺顯易懂的“大數據和機器學習”原理說明入手,講述大數據和機器學習的基本概念,如分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(回歸分析)和數據可視化應用等。書中不僅加入了新近的大數據技術,還豐富了“機器學習”內容。
為降低讀者學習大數據技術的門檻,書中提供了豐富的上機實踐操作和範例程序詳解,展示了如何在單機Windows系統上通過Virtual Box虛擬機安裝多機Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。書中介紹搭建的上機實踐平臺並不限制於單台實體計算機。對於有條件的公司和學校,參照書中介紹的搭建過程,同樣可以實現將自己的平臺搭建在多台實體計算機上,以便更加接近於大數據和機器學習真實的運行環境。
本書非常適合於學習大數據基礎知識的初學者閱讀,更適合正在學習大數據理論和技術的人員作為上機實踐用的教材。
?1.Hadoop集群安裝與分散式運算和存儲介紹通過實機操作,學會如何安裝Virtual Box、Ubuntu Linux、Hadoop單機與多臺機器集群安裝,并學會使用HDFS分散式存儲與MapReduce分散式運算。2.Python Spark 2.0安裝通過實機操作,學會安裝Spark 2.0,并在本機與多臺機器集群執行Python Spark應用程序。同時介紹如何在iPython Notebook互動界面執行Python Spark指令。安裝eclipse整合開發界面,開發Python Spark應用程序,大幅提升程序開發生產力。3.Python Spark SQL、DataFrame數據統計與數據可視化Spark SQL 即使非程序設計人員,只需要懂得SQL語法,就可以使用。DataFrame API 可使用類SQL的方法,如select()、groupby()、count(),很容易進行統計,大幅降低大數據分析的學習門檻。Spark DataFrame可轉換為Pandas DataFrame,運用Python豐富的數據可視化組件(例如matplotlib)進行數據可視化。4.Python Spark MLlib機器學習以大數據分析實際案例MoiveLens、StumbleUpon、CovType、BikeSharing介紹如何使用Python Spark運用機器學習演算法進行數據處理、訓練、建立模型、訓練驗證找出&佳模型、預測結果。5.Python Spark ML Pipeline機器學習流程以大數據實際案例示范使用Python Spark ML Pipeline機器學習流程進行二元分類、多元分類、回歸分析,將機器學習的每一個步驟建立成Pipeline流程:數據處理 →運算法訓練數據→建立模型→找出&佳模型→預測結果。Spark ML Pipeline 通過內建數據處理模塊與機器學習運算法,減輕數據分析師在程序設計上的負擔。內容簡介? ? 書籍? ? 計算機書籍本書從淺顯易懂的“大數據和機器學習”原理說明入手,講述大數據和機器學習的基本概念,如分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(回歸分析)和數據可視化應用等。書中不僅加入了新近的大數據技術,還豐富了“機器學習”內容。為降低讀者學習大數據技術的門檻,書中提供了豐富的上機實踐操作和范例程序詳解,展示了如何在單機Windows系統上通過Virtual Box虛擬機安裝多機Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。書中介紹搭建的上機實踐平臺并不限制于單臺實體計算機。對于有條件的公司和學校,參照書中介紹的搭建過程,同樣可以實現將自己的平臺搭建在多臺實體計算機上,以便更加接近于大數據和機器學習真實的運行環境。本書非常適合于學習大數據基礎知識的初學者閱讀,更適合正在學習大數據理論和技術的人員作為上機實踐用的教材。?作譯者林大貴,從事IT行業多年,在系統設計、網站開發、數字營銷、商業智慧、大數據、機器學習等領域具有豐富的實戰經驗。??
第1章 Python Spark機器學習與Hadoop大數據 11.1 機器學習的介紹 21.2 Spark的介紹 51.3 Spark數據處理 RDD、DataFrame、Spark SQL 71.4 使用Python開發 Spark機器學習與大數據應用 81.5 Python Spark 機器學習 91.6 Spark ML Pipeline機器學習流程介紹 101.7 Spark 2.0的介紹 121.8 大數據定義 131.9 Hadoop 簡介 141.10 Hadoop HDFS分布式文件系統 141.11 Hadoop MapReduce的介紹 171.12 結論 18第2章 VirtualBox虛擬機軟件的安裝 192.1 VirtualBox的下載和安裝 202.2 設置VirtualBox存儲文件夾 232.3 在VirtualBox創建虛擬機 252.4 結論 29第3章 Ubuntu Linux 操作系統的安裝 303.1 Ubuntu Linux 操作系統的安裝 313.2 在Virtual設置Ubuntu虛擬光盤文件 333.3 開始安裝Ubuntu 353.4 啟動Ubuntu 403.5 安裝增強功能 413.6 設置默認輸入法 453.7 設置“終端”程序 483.8 設置“終端”程序為白底黑字 493.9 設置共享剪貼板 503.10 設置&佳下載服務器 523.11 結論 56第4章 Hadoop Single Node Cluster的安裝 574.1 安裝JDK 584.2 設置SSH無密碼登錄 614.3 下載安裝Hadoop 644.4 設置Hadoop環境變量 674.5 修改Hadoop配置設置文件 694.7 啟動Hadoop 744.8 打開Hadoop Resource-Manager Web界面 764.9 NameNode HDFS Web界面 784.10 結論 79第5章 Hadoop Multi Node Cluster的安裝 805.1 把Single Node Cluster復制到data1 835.2 設置VirtualBox網卡 845.3 設置data1服務器 875.4 復制data1服務器到data2、data3、master 945.5 設置data2服務器 975.6 設置data3服務器 1005.7 設置master服務器 1025.10 啟動Hadoop Multi Node Cluster 1125.11 打開Hadoop ResourceManager Web界面 1145.12 打開NameNode Web界面 1155.13 停止Hadoop Multi Node Cluster 1165.14 結論 116第 6 章 Hadoop HDFS命令 1176.1 啟動Hadoop Multi-Node Cluster 1186.3 從本地計算機復制文件到HDFS 1226.4 將HDFS上的文件復制到本地計算機 1276.5 復制與刪除HDFS文件 1296.6 在Hadoop HDFS Web用戶界面瀏覽HDFS 1316.7 結論 134第7章 Hadoop MapReduce 1357.1 簡單介紹WordCount.java 1367.2 編輯WordCount.java 1377.3 編譯WordCount.java 1417.4 創建測試文本文件 1437.5 運行WordCount.java 1457.6 查看運行結果 1467.7 結論 147第8章 Python Spark的介紹與安裝 1488.1 Scala的介紹與安裝 1508.2 安裝Spark 1538.3 啟動pyspark交互式界面 1568.4 設置pyspark顯示信息 1578.5 創建測試用的文本文件 1598.6 本地運行pyspark程序 1618.7 在Hadoop YARN運行pyspark 1638.8 構建Spark Standalone Cluster運行環境 1658.9 在Spark Standalone運行pyspark 1718.10 Spark Web UI界面 1738.11 結論 175第9章 在 IPython Notebook 運行 Python Spark 程序 1769.1 安裝Anaconda 1779.2 在IPython Notebook使用Spark 1809.3 打開IPython Notebook筆記本 1849.4 插入程序單元格 1859.5 加入注釋與設置程序代碼說明標題 1869.6 關閉IPython Notebook 1889.7 使用IPython Notebook在Hadoop YARN-client模式運行 1899.8 使用IPython Notebook在Spark Stand Alone模式運行 1929.9 整理在不同的模式運行IPython Notebook的命令 1949.9.1 在 Local 啟動 IPython Notebook 1959.9.2 在Hadoop YARN-client 模式啟動 IPython Notebook 1959.9.3 在Spark Stand Alone 模式啟動 IPython Notebook 1959.10 結論 196第10章 Python Spark RDD 19710.1 RDD的特性 19810.2 開啟IPython Notebook 19910.3 基本RDD“轉換”運算 20110.4 多個RDD“轉換”運算 20610.5 基本“動作”運算 20810.6 RDD Key-Value 基本“轉換”運算 20910.7 多個RDD Key-Value“轉換”運算 21210.8 Key-Value“動作”運算 21510.9 Broadcast 廣播變量 21710.10 accumulator累加器 22010.11 RDD Persistence持久化 22110.12 使用Spark創建WordCount 22310.13 Spark WordCount詳細解說 22610.14 結論 228第11章 Python Spark的集成開發環境 22911.1 下載與安裝eclipse Scala IDE 23211.2 安裝PyDev 23511.3 設置字符串替代變量 24011.4 PyDev 設置 Python 鏈接庫 24311.5 PyDev設置anaconda2鏈接庫路徑 24511.6 PyDev設置Spark Python鏈接庫 24711.7 PyDev設置環境變量 24811.8 新建PyDev項目 25111.9 加入WordCount.py程序 25311.10 輸入WordCount.py程序 25411.12 使用spark-submit執行WordCount程序 25911.13 在Hadoop YARN-client上運行WordCount程序 26111.14 在Spark Standalone Cluster上運行WordCount程序 26411.15 在eclipse外部工具運行Python Spark程序 26711.16 在eclipse運行spark-submit YARN-client 27311.17 在eclipse運行spark-submit Standalone 27711.18 結論 280第12章 Python Spark創建推薦引擎 28112.1 推薦算法介紹 28212.2 “推薦引擎”大數據分析使用場景 28212.3 ALS推薦算法的介紹 28312.4 如何搜索數據 28512.5 啟動IPython Notebook 28912.6 如何準備數據 29012.7 如何訓練模型 29412.8 如何使用模型進行推薦 29512.9 顯示推薦的電影名稱 29712.10 創建Recommend項目 29912.11 運行RecommendTrain.py 推薦程序代碼 30212.12 創建Recommend.py推薦程序代碼 30412.13 在eclipse運行Recommend.py 30712.14 結論 310第13章 Python Spark MLlib決策樹二元分類 31113.1 決策樹介紹 31213.2 “StumbleUpon Evergreen”大數據問題 31313.2.1 Kaggle網站介紹 31313.2.2 “StumbleUpon Evergreen”大數據問題場景分析 31313.3 決策樹二元分類機器學習 31413.4 如何搜集數據 31513.4.1 StumbleUpon數據內容 31513.4.2 下載 StumbleUpon 數據 31613.4.3 用LibreOffice Calc 電子表格查看train.tsv 31913.5 使用IPython Notebook示范 32313.6 如何進行數據準備 32413.6.1 導入并轉換數據 32413.6.2 提取 feature 特征字段 32713.6.3 提取分類特征字段 32813.6.4 提取數值特征字段 33113.6.5 返回特征字段 33113.6.6 提取 label 標簽字段 33113.6.7 建立訓練評估所需的數據 33213.6.8 以隨機方式將數據分為 3 部分并返回 33313.6.9 編寫 PrepareData(sc) 函數 33313.7 如何訓練模型 33413.8 如何使用模型進行預測 33513.9 如何評估模型的準確率 33813.9.1 使用 AUC 評估二元分類模型 33813.9.2 計算 AUC 33913.10 模型的訓練參數如何影響準確率 34113.10.1 建立 trainEvaluateModel 34113.10.2 評估impurity參數 34313.10.3 訓練評估的結果以圖表顯示 34413.10.4 編寫 evalParameter 34713.10.5 使用 evalParameter 評估 maxDepth 參數 34713.10.6 使用 evalParameter 評估 maxBins 參數 34813.11 如何找出準確率&高的參數組合 34913.12 如何確認是否過度訓練 35213.13 編寫RunDecisionTreeBinary.py程序 35213.14 開始輸入RunDecisionTreeBinary.py程序 35313.15 運行RunDecisionTreeBinary.py 35513.15.1 執行參數評估 35513.15.2 所有參數訓練評估找出&好的參數組合 35513.15.3 運行 RunDecisionTreeBinary.py 不要輸入參數 35713.16 查看DecisionTree的分類規則 35813.17 結論 360第14章 Python Spark MLlib 邏輯回歸二元分類 36114.1 邏輯回歸分析介紹 36214.2 RunLogisticRegression WithSGDBinary.py程序說明 36314.3 運行RunLogisticRegression WithSGDBinary.py進行參數評估 36714.4 找出&佳參數組合 37014.5 修改程序使用參數進行預測 37014.6 結論 372第15章 Python Spark MLlib支持向量機SVM二元分類 37315.1 支持向量機SVM算法的基本概念 37415.2 運行SVMWithSGD.py進行參數評估 37615.3 運行SVMWithSGD.py 訓練評估參數并找出&佳參數組合 37815.4 運行SVMWithSGD.py 使用&佳參數進行預測 37915.5 結論 381第16章 Python Spark MLlib樸素貝葉斯二元分類 38216.1 樸素貝葉斯分析原理的介紹 38316.2 RunNaiveBayesBinary.py程序說明 38416.3 運行NaiveBayes.py進行參數評估 38616.4 運行訓練評估并找出&好的參數組合 38716.5 修改RunNaiveBayesBinary.py 直接使用&佳參數進行預測 38816.6 結論 390第17章 Python Spark MLlib決策樹多元分類 39117.1 “森林覆蓋植被”大數據問題分析場景 39217.2 UCI Covertype數據集介紹 39317.3 下載與查看數據 39417.4 修改PrepareData() 數據準備 39617.5 修改trainModel 訓練模型程序 39817.6 使用訓練完成的模型預測數據 39917.7 運行RunDecisionTreeMulti.py 進行參數評估 40117.8 運行RunDecisionTreeMulti.py 訓練評估參數并找出&好的參數組合 40317.9 運行RunDecisionTreeMulti.py 不進行訓練評估 40417.10 結論 406第18章 Python Spark MLlib決策樹回歸分析 40718.1 Bike Sharing大數據問題分析 40818.2 Bike Sharing數據集 40918.3 下載與查看數據 40918.4 修改 PrepareData() 數據準備 41218.5 修改DecisionTree.trainRegressor訓練模型 41518.6 以 RMSE 評估模型準確率 41618.7 訓練評估找出&好的參數組合 41718.8 使用訓練完成的模型預測數據 41718.9 運行RunDecisionTreeMulti.py進行參數評估 41918.10 運行RunDecisionTreeMulti.py訓練評估參數并找出&好的參數組合 42118.11 運行RunDecisionTreeMulti.py 不進行訓練評估 42218.12 結論 424第19章 Python Spark SQL、DataFrame、RDD數據統計與可視化 42519.1 RDD、DataFrame、Spark SQL 比較 42619.2 創建RDD、DataFrame與Spark SQL 42719.2.1 在 local 模式運行 IPython Notebook 42719.2.2 創建RDD 42719.2.3 創建DataFrame 42819.2.4 設置 IPython Notebook 字體 43019.2.5 為DataFrame 創建別名 43119.2.6 開始使用 Spark SQL 43119.3 SELECT顯示部分字段 43419.3.1 使用 RDD 選取顯示部分字段 43419.3.2 使用 DataFrames 選取顯示字段 43419.3.3 使用 Spark SQL 選取顯示字段 43519.4 增加計算字段 43619.4.1 使用 RDD 增加計算字段 43619.4.2 使用 DataFrames 增加計算字段 43619.4.3 使用 Spark SQL 增加計算字段 43719.5 篩選數據 43819.5.1 使用 RDD 篩選數據 43819.5.2 使用 DataFrames 篩選數據 43819.5.3 使用 Spark SQL 篩選數據 43919.6 按單個字段給數據排序 43919.6.1 RDD 按單個字段給數據排序 43919.6.2 使用 Spark SQL排序 44019.6.3 使用 DataFrames按升序給數據排序 44119.6.4 使用 DataFrames按降序給數據排序 44219.7 按多個字段給數據排序 44219.7.1 RDD 按多個字段給數據排序 44219.7.2 Spark SQL 按多個字段給數據排序 44319.7.3 DataFrames 按多個字段給數據排序 44319.8 顯示不重復的數據 44419.8.1 RDD 顯示不重復的數據 44419.8.2 Spark SQL 顯示不重復的數據 44519.8.3 Dataframes顯示不重復的數據 44519.9 分組統計數據 44619.9.1 RDD 分組統計數據 44619.9.2 Spark SQL分組統計數據 44719.9.3 Dataframes分組統計數據 44819.10 Join 聯接數據 45019.10.1 創建 ZipCode 45019.10.2 創建 zipcode_tab 45219.10.3 Spark SQL 聯接 zipcode_table 數據表 45419.10.4 DataFrame user_df 聯接 zipcode_df 45519.11 使用 Pandas DataFrames 繪圖 45719.11.1 按照不同的州統計并以直方圖顯示 45719.11.2 按照不同的職業統計人數并以圓餅圖顯示 45919.12 結論 461第20章 Spark ML Pipeline 機器學習流程二元分類 46220.1 數據準備 46420.1.1 在 local 模式執行 IPython Notebook 46420.1.2 編寫 DataFrames UDF 用戶自定義函數 46620.1.3 將數據分成 train_df 與 test_df 46820.2 機器學習pipeline流程的組件 46820.2.1 StringIndexer 46820.2.2 OneHotEncoder 47020.2.3 VectorAssembler 47220.2.4 使用 DecisionTreeClassier 二元分類 47420.3 建立機器學習pipeline流程 47520.4 使用pipeline進行數據處理與訓練 47620.5 使用pipelineModel 進行預測 47720.6 評估模型的準確率 47820.7 使用TrainValidation進行訓練驗證找出&佳模型 47920.8 使用crossValidation交叉驗證找出&佳模型 48120.9 使用隨機森林 RandomForestClassier分類器 48320.10 結論 485第21章 Spark ML Pipeline 機器學習流程多元分類 48621.1 數據準備 48721.1.1 讀取文本文件 48821.1.2 創建 DataFrame 48921.1.3 轉換為 double 49021.2 建立機器學習pipeline流程 49221.3 使用dt_pipeline進行數據處理與訓練 49321.4 使用pipelineModel 進行預測 49321.5 評估模型的準確率 49521.4 使用TrainValidation進行訓練驗證找出&佳模型 49621.7 結論 498第22章 Spark ML Pipeline 機器學習流程回歸分析 49922.1 數據準備 50122.1.1 在local 模式執行 IPython Notebook 50122.1.2 將數據分成 train_df 與 test_df 50422.2 建立機器學習pipeline流程 50422.3 使用dt_pipeline進行數據處理與訓練 50622.4 使用pipelineModel 進行預測 50622.5 評估模型的準確率 50722.6 使用TrainValidation進行訓練驗證找出&佳模型 50822.7 使用crossValidation進行交叉驗證找出&佳模型 51022.8 使用GBT Regression 51122.9 結論 513附錄A 本書范例程序下載與安裝說明 514A.1 下載范例程序 515A.2 打開本書IPython Notebook范例程序 516

購物須知

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約20個工作天;
海外無庫存之書籍,平均作業時間約45個工作天,然不保證確定可調到貨,尚請見諒。