TOP
0
0
即日起~6/30,暑期閱讀書展,好書7折起
機器學習基礎:面向預測數據分析的算法、實用範例與案例研究(簡體書)
滿額折

機器學習基礎:面向預測數據分析的算法、實用範例與案例研究(簡體書)

商品資訊

人民幣定價:99 元
定價
:NT$ 594 元
優惠價
87517
領券後再享86折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:15 點
相關商品
商品簡介
名人/編輯推薦
目次

商品簡介

本書詳細討論了預測數據分析中最重要的機器學習方法,涵蓋基礎理論和實際應用。在討論了從數據到見解再到決策的過程之後,本書描述了機器學習的四種方法:基於信息的學習、基於相似性的學習、基於概率的學習和基於誤差的學習。每種方法都是先對基本概念進行非技術性解釋,然後給出由詳細工作實例加以說明的數學模型和算法。最後,本書考慮了評估預測模型的技術,並提供了兩個案例研究,展示了機器學習在商業環境中的應用。

名人/編輯推薦

闡述機器學習本質,並結合工業界案例分析以及優秀實踐展示如何應用機器學習方法來解決預測數據分析問題。

本書的目的是呈現一個通俗易懂的、引導性的機器學習基礎資料,並說明在實踐中是如何利用機器學習解決商業、科學以及其他組織環境的預測數據分析問題的。因此,本書不僅討論一般機器學習書籍所涵蓋的內容,也討論預測分析項目的生命周期、數據準備、特征設計和模型部署。
本書可作為計算機科學、自然與社會科學、工程以及商學專業本科生和研究生的機器學習、數據挖掘、數據分析或人工智能課程的教材。書中的案例研究展示了機器學習在工業領域的數據分析方面的應用,因此本書也可以作為從業者的參考材料,還可用作工業界的培訓教材。
本書基於我們多年教授機器學習的經驗編寫而成,書中的方法和素材源於課堂,並經過了實踐檢驗。在撰寫本書的過程中,為使這些素材更易於理解,我們采用了如下指導原則:
將最重要且最常用的算法解釋清楚,而不是籠統地囊括機器學習的所有方面。作為教師,我們認為讓學生深入理解一個領域的核心和基礎概念能夠為他們打下堅實的基礎,如此學生才能夠獨立地探索這個領域。這種見微知著的方法使我們能夠用更多的篇幅去介紹、解釋、闡明和情境化那些較為基礎和實用的算法。
在從技術上正式地描述算法的原理之前,先通俗地解釋算法的意圖。對每個主題進行通俗的介紹,可以使學生在學習更為技術性的內容之前打下堅實的基礎。我們針對本科生、研究生和專業人士等的教學經驗表明,這些通俗的介紹能使學生輕松地理解主題。
提供完整的實用範例。在本書中,我們展示了所有範例的完整運作方式,這樣能使讀者檢查自己的理解程度。
本書結構
在教授一個技術主題時,展示其實際應用是非常重要的。為此,我們在預測數據分析這一重要且處於成長期的工業界機器學習應用情境下展現機器學習。機器學習與數據分析的聯系貫穿本書的每一章。在第1章中,介紹機器學習,並解釋機器學習在標準的數據分析項目的生命周期中所扮演的角色。在第2章,呈現一個設計和構建預測分析解決方案的框架,該框架基於機器學習且能夠滿足商業需要。所有機器學習算法都假設存在一個可供訓練的數據集。因此,第3章闡釋在預先建好的預測模型上使用數據集前如何對數據集進行設計、構建和質量檢查。
第4~7章是本書的主要機器學習章節,每一章都展示了不同的機器學習方法:第4章為通過搜集信息來學習;第5章為通過類比來學習;第6章為通過預測可能的結果來學習;第7章為通過搜索誤差最小的解來學習。這些章節都分為如下兩部分:
第一部分首先對該章內容進行通俗的介紹,緊接著詳細地闡釋理解這些內容所需的技術概念,然後展示使用該學習方法的一個標準機器學習算法以及詳細的實用範例。
第二部分闡釋該標準機器學習算法的各種拓展方法,以及所延伸出的著名的變種算法。
將這些章節分為兩部分的目的在於自然地將該章內容分節。由此,一節課就可以涵蓋每章的第一部分(大思路、基礎知識、標準方法),即一個主題。接著——如果時間允許的話——課程的主題可以延伸至第二部分的全部或部分內容。第8章闡述如何評估預測模型的性能,並展示了一系列不同的評估指標。該章也由標準方法以及延伸與拓展這兩部分組成。在所有技術章節中,更為廣泛的預測分析場景持續地穿插於翔實、完整的實際範例中,並且給出了範例所基於的數據集和論文的引用來源。
第9和10章的案例研究(客戶流失、星系分類)清晰地展現了廣泛的商業情境與機器學習之間的聯系,尤其強調許多超越建模的問題和任務(比如商業理解、問題定義、數據收集和準備,以及對見解進行交流)對預測分析項目的重要性。最後,第11章討論機器學習中一系列基礎性的話題,並強調了針對給定問題選擇合適的機器學習方法不僅涉及關於模型精確度的因素,而且必須將模型的特性與商業需求進行匹配。
如何使用本書
多年的教學工作,使我們對適用於一學期的導論課程和適用於兩學期的高階課程所需的教學內容有了清晰的認識。為使本書適用於上述兩種不同的教學情境,本書的內容是模塊化的,各章之間沒有太多依賴關係。因此,教師在使用本書時只需選擇自己想要講授的部分,而不需要擔心這些部分之間的依賴關係。講課時,第1、2、9~11章的內容通常需要2~3課時,而第3~8章的內容則通常需要4~6課時。
我們在表1中列出了針對不同情況的建議授課計劃。所有課程都包含第1章(面向預測數據分析的機器學習)和第11章(面向預測數據分析的機器學習藝術)。列出的第一門課程M.L.(短,深入)設計為一學期機器學習課程,這門課程側重於讓學生深入理解兩個機器學習方法,以及了解在評估一個機器學習模型時所應使用的正確方法。在建議的課程中,我們決定納入全部第4章(基於信息的學習)的內容,以及第7章(基於誤差的學習)的內容。但這些內容也可被第5章(基於相似性的學習)和/或第6章(基於概率的學習)取代。M.L. (短,深入)也是短期(一周)專業人員培訓的理想課程。第二門課程M.L.(短,廣泛)則是另一種一學期機器學習課程,這門課程側重於涵蓋一系列機器學習方法,並且包括了詳細的評估方法。對於長達兩學期的機器學習課程M.L.(長)來說,我們建議講授數據準備(3.6節)、所有的

目次

譯者序
前言
符號記法
第1章 面向預測數據分析的機器學習 1
1.1 什麼是預測數據分析 1
1.2 什麼是機器學習 2
1.3 機器學習的工作原理 4
1.4 機器學習會產生什麼問題 7
1.5 預測數據分析項目的生命周期:CRISP-DM 9
1.6 預測數據分析工具 10
1.7 本書概覽 11
1.8 習題 12
第2章 數據到見解再到決策 13
2.1 將商業問題轉化為分析解決方案 13
2.2 可行性評估 14
2.3 設計分析基礎表 16
2.4 特征的設計與實現 19
2.4.1 不同的數據類型 20
2.4.2 不同的特征類型 20
2.4.3 處理時間 21
2.4.4 法律問題 23
2.4.5 特征的實現 25
2.4.6 案例研究:汽車保險詐騙 25
2.5 總結 28
2.6 延伸閱讀 28
2.7 習題 29
第3章 數據探索 31
3.1 數據質量報告 31
3.2 了解數據 35
3.2.1 正態分布 37
3.2.2 案例研究:汽車保險詐騙 38
3.3 找出數據質量問題 39
3.3.1 缺失值 39
3.3.2 異常基數 40
3.3.3 離群點 40
3.3.4 案例研究:汽車保險詐騙 41
3.4 處理數據質量問題 42
3.4.1 處理缺失值 43
3.4.2 處理離群點 43
3.4.3 案例研究:汽車保險詐騙 44
3.5 高階數據探索 45
3.5.1 可視化特征之間的關係 45
3.5.2 度量協方差和相關性 52
3.6 數據準備 56
3.6.1 歸一化 56
3.6.2 分箱 57
3.6.3 采樣 60
3.7 總結 61
3.8 延伸閱讀 62
3.9 習題 62
第4章 基於信息的學習 73
4.1 大思路 73
4.2 基礎知識 75
4.2.1 決策樹 75
4.2.2 香農熵模型 77
4.2.3 信息增益 80
4.3 標準方法:ID3算法 83
4.4 延伸與拓展 89
4.4.1 其他特征選取與純度度量方法 89
4.4.2 處理連續描述性特征 92
4.4.3 預測連續目標 95
4.4.4 剪枝 98
4.4.5 模型組合 100
4.5 總結 103
4.6 延伸閱讀 104
4.7 習題 104
第5章 基於相似性的學習 109
5.1 大思路 109
5.2 基本概念 110
5.2.1 特征空間 110
5.2.2 用距離度量測量相似性 111
5.3 標準方法:最近鄰算法 113
5.4 延伸與拓展 116
5.4.1 處理嘈雜數據 116
5.4.2 高效內存搜索 118
5.4.3 數據歸一化 124
5.4.4 預測連續目標 127
5.4.5 其他相似性測量 129
5.4.6 特征選取 136
5.5 總結 141
5.6 延伸閱讀 143
5.7 後記 144
5.8 習題 144
第6章 基於概率的學習 149
6.1 大思路 149
6.2 基礎知識 151
6.2.1 貝葉斯定理 152
6.2.2 貝葉斯預測 154
6.2.3 條件獨立與因子化 157
6.3 標準方法:樸素貝葉斯模型 160
6.4 延伸與拓展 163
6.4.1 平滑 163
6.4.2 連續特征:概率密度函數 166
6.4.3 連續特征:分箱 174
6.4.4 貝葉斯網絡 177
6.5 總結 187
6.6 延伸閱讀 188
6.7 習題 188
第7章 基於誤差的學習 192
7.1 大思路 192
7.2 基礎知識 192
7.2.1 簡單線性回歸 193
7.2.2 測量誤差 194
7.2.3 誤差曲面 196
7.3 標準方法:使用梯度下降法的多變量線性回歸 197
7.3.1 多變量線性回歸 198
7.3.2 梯度下降法 198
7.3.3 選擇學習率和初始權值 203
7.3.4 實用範例 204
7.4 延伸與拓展 206
7.4.1 解釋多變量線性回歸模型 206
7.4.2 用權值衰減設定學習率 208
7.4.3 處理類別描述性特征 209
7.4.4 處理類別目標特征:對數幾率回歸 210
7.4.5 建模非線性關係 219
7.4.6 多項對數幾率回歸 223
7.4.7 支持向量機 226
7.5 總結 229
7.6 延伸閱讀 231
7.7 習題 231
第8章 評估 237
8.1 大思路 237
8.2 基礎知識 238
8.3 標準方法:留出測試集上的誤分類率 238
8.4 延伸與拓展 241
8.4.1 設計評估實驗 241
8.4.2 性能度量:類別目標 246
8.4.3 性能度量:預測得分 252
8.4.4 性能度量:多項目標 264
8.4.5 性能度量:連續目標 265
8.4.6 評估部署後的模型 268
8.5 總結 273
8.6 延伸閱讀 273
8.7 習題 274
第9章 案例研究:客戶流失 278
9.1 商業理解 278
9.2 數據理解 280
9.3 數據準備 283
9.4 建模 286
9.5 評估 289
9.6 部署 290
第10章 案例研究:星系分類 292
10.1 商業理解 292
10.2 數據理解 294
10.3 數據準備 299
10.4 建模 303
10.4.1 基準模型 303
10.4.2 特征選取 305
10.4.3 5級別模型 306
10.5 評估 307
10.6 部署 308
第11章 面向預測數據分析的機器學習藝術 309
11.1 預測模型的不同視角 310
11.2 選擇機器學習方法 313
11.2.1 將機器學習方法和項目匹配 315
11.2.2 將機器學習方法和數據匹配 315
11.3 總結 316
附錄A 機器學習的描述性統計量與數據可視化 317
附錄B 機器學習的概率論導論 326
附錄C 機器學習中的求導方法 332
參考文獻 336
索引 343

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 517
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區