R語言機器學習(簡體書)
商品資訊
系列名:數據科學與工程技術叢書
ISBN13:9787111595915
替代書名:Machine learning using R
出版社:機械工業出版社
作者:(印度)卡西克‧拉瑪蘇布蘭馬尼安
譯者:吳今朝
出版日:2018/06/01
裝訂/頁數:平裝/432頁
規格:18.5cm*26.0cm (高/寬)
商品簡介
作者簡介
目次
商品簡介
本書講解的是在R語言平臺上使用大數據技術構建可擴展機器學習模型的新技術成果。它全面展示了如何採用機器學習算法在原始數據的基礎上構建機器學習模型。本書還能讓那些希望利用ApacheHadoop、Hive、Pig和Spark來實現可擴展機器學習模型的讀者從中受益。
作者簡介
卡西克‧拉瑪蘇布蘭馬尼安,就職於Hike Messenger,從事商業分析和數據科學方面的工作。
目次
目 錄
譯者序
關於作者
關於技術審稿人
致謝
第1章 機器學習和R語言入門1
1.1 瞭解發展歷程2
1.1.1 統計學習2
1.1.2 機器學習2
1.1.3 人工智能3
1.1.4 數據挖掘3
1.1.5 數據科學4
1.2 概率與統計5
1.2.1 計數和概率的定義5
1.2.2 事件和關係7
1.2.3 隨機性、概率和分佈8
1.2.4 置信區間和假設檢驗9
1.3 R語言入門13
1.3.1 基本組成部分13
1.3.2 R 語言的數據結構14
1.3.3 子集處理15
1.3.4 函數和Apply系列17
1.4 機器學習過程工作流19
1.4.1 計劃19
1.4.2 探索19
1.4.3 構建20
1.4.4 評估20
1.5 其他技術20
1.6 小結21
1.7 參考資料21
第2章 數據準備和探索22
2.1 規劃數據收集23
2.1.1 變量類型23
2.1.2 數據格式24
2.1.3 數據源29
2.2 初始數據分析30
2.2.1 初步印象30
2.2.2 把多個數據源組織到一起32
2.2.3 整理數據34
2.2.4 補充更多信息36
2.2.5 重塑37
2.3 探索性數據分析38
2.3.1 摘要統計量38
2.3.2 矩41
2.4 案例研究:信用卡欺詐46
2.4.1 數據導入46
2.4.2 數據變換47
2.4.3 數據探索48
2.5 小結49
2.6 參考資料49
第3章 抽樣與重抽樣技術50
3.1 介紹抽樣技術50
3.2 抽樣的術語51
3.2.1 樣本51
3.2.2 抽樣分佈52
3.2.3 總群體的均值和方差52
3.2.4 樣本均值和方差52
3.2.5 匯總的均值和方差52
3.2.6 抽樣點53
3.2.7 抽樣誤差53
3.2.8 抽樣率53
3.2.9 抽樣偏誤53
3.2.10 無放回的抽樣53
3.2.11 有放回的抽樣54
3.3 信用卡欺詐:總群體的統計量54
3.3.1 數據描述54
3.3.2 總群體的均值55
3.3.3 總群體的方差55
3.3.4 匯總的均值和方差55
3.4 抽樣在業務上的意義58
3.4.1 抽樣的特徵59
3.4.2 抽樣的缺點59
3.5 概率和非概率抽樣59
3.5.1 非概率抽樣的類型60
3.6 關於抽樣分佈的統計理論61
3.6.1 大數定律61
3.6.2 中心極限定理63
3.7 概率抽樣技術66
3.7.1 總群體的統計量66
3.7.2 簡單隨機抽樣69
3.7.3 系統性隨機抽樣74
3.7.4 分層隨機抽樣77
3.7.5 聚類抽樣82
3.7.6 自助抽樣86
3.8 蒙特卡羅方法:接受-拒絕91
3.9 通過抽樣節省計算開銷的定性分析93
3.10 小結94
第4章 R語言裡的數據可視化95
4.1 ggplot2組件包簡介96
4.2 世界經濟發展指標97
4.3 折線圖97
4.4 堆疊柱狀圖102
4.5 散點圖106
4.6 箱形圖107
4.7 直方圖和密度圖109
4.8 餅圖113
4.9 相關圖114
4.10 熱點圖116
4.11 氣泡圖117
4.12 瀑布圖120
4.13 系統樹圖122
4.14 關鍵字雲124
4.15 桑基圖125
4.16 時間序列圖127
4.17 隊列圖128
4.18 空間圖130
4.19 小結133
4.20 參考資料133
第5章 特徵工程135
5.1 特徵工程簡介136
5.1.1 過濾器方法137
5.1.2 包裝器方法137
5.1.3 嵌入式方法138
5.2 瞭解工作數據138
5.2.1 數據摘要139
5.2.2 因變量的屬性139
5.2.3 特徵的可用性:連續型或分類型141
5.2.4 設置數據的假設142
5.3 特徵排名143
5.4 變量子集的選擇146
5.4.1 過濾器方法146
5.4.2 包裝器方法149
5.4.3 嵌入式方法154
5.5 降維158
5.6 特徵工程核對清單161
5.7 小結162
5.8 參考資料162
第6章 機器學習理論和實踐163
6.1 機器學習的類型165
6.1.1 有監督學習166
6.1.2 無監督學習166
6.1.3 半監督學習166
6.1.4 強化學習166
6.2 機器學習算法的類別167
6.3 實際環境的數據集170
6.3.1 房產售價170
6.3.2 購買偏好170
6.3.3 Twitter訂閱和文章171
6.3.4 乳腺癌171
6.3.5 購物籃172
6.3.6 亞馬遜美食評論172
6.4 回歸分析173
6.5 相關分析174
6.5.1 線性回歸176
6.5.2 簡單線性回歸177
6.5.3 多元線性回歸180
6.5.4 模型診斷:線性回歸182
6.5.5 多項回歸191
6.5.6 邏輯回歸194
6.5.7 洛基(logit)變換195
6.5.8 幾率比196
6.5.9 模型診斷:邏輯回歸202
6.5.10 多項邏輯回歸209
6.5.11 廣義線性模型212
6.5.12 結論213
6.6 支持向量機213
6.6.1 線性SVM214
6.6.2 二元SVM分類模型215
6.6.3 多類別SVM217
6.6.4 結論218
6.7 決策樹218
6.7.1 決策樹的類型219
6.7.2 決策指標220
6.7.3 決策樹學習方法222
6.7.4 集成樹235
6.7.5 結論240
6.8 樸素貝葉斯方法241
6.8.1 條件概率241
6.8.2 貝葉斯定理241
6.8.3 先驗概率242
6.8.4 後驗概率242
6.8.5 似然和邊際似然242
6.8.6 樸素貝葉斯方法242
6.8.7 結論246
6.9 聚類分析246
6.9.1 聚類方法簡介247
6.9.2 聚類算法247
6.9.3 內部評估255
6.9.4 外部評估256
6.9.5 結論257
6.10 關聯規則挖掘258
6.10.1 關聯概念簡介258
6.10.2 規則挖掘算法259
6.10.3 推薦算法265
6.10.4 結論270
6.11 人工神經網絡271
6.11.1 人類認知學習271
6.11.2 感知器272
6.11.3 Sigmoid神經元274
6.11.4 神經網絡的體系架構275
6.11.5 有監督與無監督的神經網絡276
6.11.6 神經網絡的學習算法277
6.11.7 前饋反向傳播278
6.11.8 深度學習284
6.11.9 結論289
6.12 文本挖掘方法289
6.12.1 文本挖掘簡介290
6.12.2 文本摘要291
6.12.3 TF-IDF292
6.12.4 詞性標注294
6.12.5 關鍵字雲297
6.12.6 文本分析:Microsoft Cognitive Services297
6.12.7 結論305
6.13 在線機器學習算法305
6.13.1 模糊C均值聚類306
6.13.2 結論308
6.14 構建模型的核對清單309
6.15 小結309
6.16 參考資料309
第7章 機器學習模型的評估311
7.1 數據集311
7.1.1 房產售價312
7.1.2 購買偏好313
7.2 模型性能和評估入門314
7.3 模型性能評估的目標315
7.4 總群體的穩定性指數316
7.5 連續型輸出的模型評估320
7.5.1 平均絕對誤差321
7.5.2 均方根誤差323
7.5.3 R2324
7.6 離散型輸出的模型評估326
7.6.1 分類矩陣327
7.6.2 靈敏度和特異性330
7.6.3 ROC曲線下的面積331
7.7 概率技術334
7.7.1 K 折交叉驗證334
7.7.2 自助抽樣336
7.8 Kappa誤差指標337
7.9 小結340
7.10 參考資料341
第8章 模型性能改進342
8.1 機器學習和統計建模343
8.2 Caret組件包概述344
8.3 超參數簡介346
8.4 超參數優化348
8.4.1 人工搜索349
8.4.2 人工網格搜索351
8.4.3 自動網格搜索353
8.4.4 最優搜索354
8.4.5 隨機搜索356
8.4.6 自定義搜索357
8.5 偏誤和方差權衡359
8.5.1 裝袋或自助聚合363
8.5.2 增強363
8.6 集成學習簡介363
8.6.1 投票集成364
8.6.2 集成學習中的高級方法365
8.7 在R語言裡演示集成技術367
8.7.1 裝袋樹367
8.7.2 決策樹的梯度增強369
8.7.3 混合knn和rpart372
8.7.4 利用caretEnemble進行堆疊374
8.8 高級主題:機器學習模型的貝葉斯優化377
8.9 小結381
8.10 參考資料382
第9章 可擴展機器學習和相關技術384
9.1 分布式處理和存儲384
9.1.1 Google File System385
9.1.2 MapReduce386
9.1.3 R語言裡的並行執行386
9.2 Hadoop生態系統389
9.2.1 MapReduce390
9.2.2 Hive393
9.2.3 Apache Pig396
9.2.4 HBase399
9.2.5 Spark400
9.3 在R語言環境下用 Spark進行機器學習401
9.3.1 設置環境變量401
9.3.2 初始化 Spark 會話402
9.3.3 加載數據並運行預處理402
9.3.4 創建 SparkDataFrame403
9.3.5 構建機器學習模型403
9.3.6 對測試數據進行預測404
9.3.7 終止 SparkR 會話404
9.4 在R語言裡利用 H2O 進行機器學習405
9.4.1 安裝組件包406
9.4.2 H2O集群的初始化406
9.4.3 在R語言裡使用H2O的深度學習演示407
9.5 小結410
9.6 參考資料411
譯者序
關於作者
關於技術審稿人
致謝
第1章 機器學習和R語言入門1
1.1 瞭解發展歷程2
1.1.1 統計學習2
1.1.2 機器學習2
1.1.3 人工智能3
1.1.4 數據挖掘3
1.1.5 數據科學4
1.2 概率與統計5
1.2.1 計數和概率的定義5
1.2.2 事件和關係7
1.2.3 隨機性、概率和分佈8
1.2.4 置信區間和假設檢驗9
1.3 R語言入門13
1.3.1 基本組成部分13
1.3.2 R 語言的數據結構14
1.3.3 子集處理15
1.3.4 函數和Apply系列17
1.4 機器學習過程工作流19
1.4.1 計劃19
1.4.2 探索19
1.4.3 構建20
1.4.4 評估20
1.5 其他技術20
1.6 小結21
1.7 參考資料21
第2章 數據準備和探索22
2.1 規劃數據收集23
2.1.1 變量類型23
2.1.2 數據格式24
2.1.3 數據源29
2.2 初始數據分析30
2.2.1 初步印象30
2.2.2 把多個數據源組織到一起32
2.2.3 整理數據34
2.2.4 補充更多信息36
2.2.5 重塑37
2.3 探索性數據分析38
2.3.1 摘要統計量38
2.3.2 矩41
2.4 案例研究:信用卡欺詐46
2.4.1 數據導入46
2.4.2 數據變換47
2.4.3 數據探索48
2.5 小結49
2.6 參考資料49
第3章 抽樣與重抽樣技術50
3.1 介紹抽樣技術50
3.2 抽樣的術語51
3.2.1 樣本51
3.2.2 抽樣分佈52
3.2.3 總群體的均值和方差52
3.2.4 樣本均值和方差52
3.2.5 匯總的均值和方差52
3.2.6 抽樣點53
3.2.7 抽樣誤差53
3.2.8 抽樣率53
3.2.9 抽樣偏誤53
3.2.10 無放回的抽樣53
3.2.11 有放回的抽樣54
3.3 信用卡欺詐:總群體的統計量54
3.3.1 數據描述54
3.3.2 總群體的均值55
3.3.3 總群體的方差55
3.3.4 匯總的均值和方差55
3.4 抽樣在業務上的意義58
3.4.1 抽樣的特徵59
3.4.2 抽樣的缺點59
3.5 概率和非概率抽樣59
3.5.1 非概率抽樣的類型60
3.6 關於抽樣分佈的統計理論61
3.6.1 大數定律61
3.6.2 中心極限定理63
3.7 概率抽樣技術66
3.7.1 總群體的統計量66
3.7.2 簡單隨機抽樣69
3.7.3 系統性隨機抽樣74
3.7.4 分層隨機抽樣77
3.7.5 聚類抽樣82
3.7.6 自助抽樣86
3.8 蒙特卡羅方法:接受-拒絕91
3.9 通過抽樣節省計算開銷的定性分析93
3.10 小結94
第4章 R語言裡的數據可視化95
4.1 ggplot2組件包簡介96
4.2 世界經濟發展指標97
4.3 折線圖97
4.4 堆疊柱狀圖102
4.5 散點圖106
4.6 箱形圖107
4.7 直方圖和密度圖109
4.8 餅圖113
4.9 相關圖114
4.10 熱點圖116
4.11 氣泡圖117
4.12 瀑布圖120
4.13 系統樹圖122
4.14 關鍵字雲124
4.15 桑基圖125
4.16 時間序列圖127
4.17 隊列圖128
4.18 空間圖130
4.19 小結133
4.20 參考資料133
第5章 特徵工程135
5.1 特徵工程簡介136
5.1.1 過濾器方法137
5.1.2 包裝器方法137
5.1.3 嵌入式方法138
5.2 瞭解工作數據138
5.2.1 數據摘要139
5.2.2 因變量的屬性139
5.2.3 特徵的可用性:連續型或分類型141
5.2.4 設置數據的假設142
5.3 特徵排名143
5.4 變量子集的選擇146
5.4.1 過濾器方法146
5.4.2 包裝器方法149
5.4.3 嵌入式方法154
5.5 降維158
5.6 特徵工程核對清單161
5.7 小結162
5.8 參考資料162
第6章 機器學習理論和實踐163
6.1 機器學習的類型165
6.1.1 有監督學習166
6.1.2 無監督學習166
6.1.3 半監督學習166
6.1.4 強化學習166
6.2 機器學習算法的類別167
6.3 實際環境的數據集170
6.3.1 房產售價170
6.3.2 購買偏好170
6.3.3 Twitter訂閱和文章171
6.3.4 乳腺癌171
6.3.5 購物籃172
6.3.6 亞馬遜美食評論172
6.4 回歸分析173
6.5 相關分析174
6.5.1 線性回歸176
6.5.2 簡單線性回歸177
6.5.3 多元線性回歸180
6.5.4 模型診斷:線性回歸182
6.5.5 多項回歸191
6.5.6 邏輯回歸194
6.5.7 洛基(logit)變換195
6.5.8 幾率比196
6.5.9 模型診斷:邏輯回歸202
6.5.10 多項邏輯回歸209
6.5.11 廣義線性模型212
6.5.12 結論213
6.6 支持向量機213
6.6.1 線性SVM214
6.6.2 二元SVM分類模型215
6.6.3 多類別SVM217
6.6.4 結論218
6.7 決策樹218
6.7.1 決策樹的類型219
6.7.2 決策指標220
6.7.3 決策樹學習方法222
6.7.4 集成樹235
6.7.5 結論240
6.8 樸素貝葉斯方法241
6.8.1 條件概率241
6.8.2 貝葉斯定理241
6.8.3 先驗概率242
6.8.4 後驗概率242
6.8.5 似然和邊際似然242
6.8.6 樸素貝葉斯方法242
6.8.7 結論246
6.9 聚類分析246
6.9.1 聚類方法簡介247
6.9.2 聚類算法247
6.9.3 內部評估255
6.9.4 外部評估256
6.9.5 結論257
6.10 關聯規則挖掘258
6.10.1 關聯概念簡介258
6.10.2 規則挖掘算法259
6.10.3 推薦算法265
6.10.4 結論270
6.11 人工神經網絡271
6.11.1 人類認知學習271
6.11.2 感知器272
6.11.3 Sigmoid神經元274
6.11.4 神經網絡的體系架構275
6.11.5 有監督與無監督的神經網絡276
6.11.6 神經網絡的學習算法277
6.11.7 前饋反向傳播278
6.11.8 深度學習284
6.11.9 結論289
6.12 文本挖掘方法289
6.12.1 文本挖掘簡介290
6.12.2 文本摘要291
6.12.3 TF-IDF292
6.12.4 詞性標注294
6.12.5 關鍵字雲297
6.12.6 文本分析:Microsoft Cognitive Services297
6.12.7 結論305
6.13 在線機器學習算法305
6.13.1 模糊C均值聚類306
6.13.2 結論308
6.14 構建模型的核對清單309
6.15 小結309
6.16 參考資料309
第7章 機器學習模型的評估311
7.1 數據集311
7.1.1 房產售價312
7.1.2 購買偏好313
7.2 模型性能和評估入門314
7.3 模型性能評估的目標315
7.4 總群體的穩定性指數316
7.5 連續型輸出的模型評估320
7.5.1 平均絕對誤差321
7.5.2 均方根誤差323
7.5.3 R2324
7.6 離散型輸出的模型評估326
7.6.1 分類矩陣327
7.6.2 靈敏度和特異性330
7.6.3 ROC曲線下的面積331
7.7 概率技術334
7.7.1 K 折交叉驗證334
7.7.2 自助抽樣336
7.8 Kappa誤差指標337
7.9 小結340
7.10 參考資料341
第8章 模型性能改進342
8.1 機器學習和統計建模343
8.2 Caret組件包概述344
8.3 超參數簡介346
8.4 超參數優化348
8.4.1 人工搜索349
8.4.2 人工網格搜索351
8.4.3 自動網格搜索353
8.4.4 最優搜索354
8.4.5 隨機搜索356
8.4.6 自定義搜索357
8.5 偏誤和方差權衡359
8.5.1 裝袋或自助聚合363
8.5.2 增強363
8.6 集成學習簡介363
8.6.1 投票集成364
8.6.2 集成學習中的高級方法365
8.7 在R語言裡演示集成技術367
8.7.1 裝袋樹367
8.7.2 決策樹的梯度增強369
8.7.3 混合knn和rpart372
8.7.4 利用caretEnemble進行堆疊374
8.8 高級主題:機器學習模型的貝葉斯優化377
8.9 小結381
8.10 參考資料382
第9章 可擴展機器學習和相關技術384
9.1 分布式處理和存儲384
9.1.1 Google File System385
9.1.2 MapReduce386
9.1.3 R語言裡的並行執行386
9.2 Hadoop生態系統389
9.2.1 MapReduce390
9.2.2 Hive393
9.2.3 Apache Pig396
9.2.4 HBase399
9.2.5 Spark400
9.3 在R語言環境下用 Spark進行機器學習401
9.3.1 設置環境變量401
9.3.2 初始化 Spark 會話402
9.3.3 加載數據並運行預處理402
9.3.4 創建 SparkDataFrame403
9.3.5 構建機器學習模型403
9.3.6 對測試數據進行預測404
9.3.7 終止 SparkR 會話404
9.4 在R語言裡利用 H2O 進行機器學習405
9.4.1 安裝組件包406
9.4.2 H2O集群的初始化406
9.4.3 在R語言裡使用H2O的深度學習演示407
9.5 小結410
9.6 參考資料411
主題書展
更多
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

