Python機器學習實戰(微課視頻版)(簡體書)
商品資訊
商品簡介
本書以機器學習算法為主題,詳細介紹算法的理論細節與應用方法。全書共19章,分別介紹了邏輯回歸與z大熵模型、k-近鄰模型、決策樹模型、樸素貝葉斯模型、支持向量機模型、集成學習框架、EM算法、降維算法、聚類算法、神經網絡模型等基礎模型或算法,以及8個綜合項目實例:汽車運動學片段分類、垃圾信息識別、乳腺癌識別、波士頓房價預測、生成動漫人物、鳶尾花分類、人臉識別、保險行為數據用戶分類器。本書重視理論與實踐相結合,希望為讀者提供全面而細致的學習指導。
本書適合機器學習初學者、相關行業從業人員以及高等院校計算機科學、軟件工程等相關專業的師生閱讀。
作者簡介
呂云翔,1986-1992: 北方交通大學講師; 1992-1994: 比利時VUB大學應用信息技術碩士; 1994-1996: 比利時VUB大學MBA; 1996-2003: IT公司項目經理 2003-至今: 北航軟件學院副教授。已出版二十幾本教材(其中“計算機導論實踐教程”一書獲北航2010年教學成果三等獎;
序
前言
從計算機被發明的那一刻起,人們便一直在嘗試打造一臺可以思考的計算機,人工智能應運而生。機器學習技術作為人工智能的核心,不斷發展,成為目前最前沿的研究領域之一。與此同時,人臉美顏、智能語音助手、商品推薦系統、自動駕駛等眾多智能產品也在悄然間改變著我們的生活。可以說,人類社會正被機器學習帶領著,迎來信息技術的一次新的革命。
為了幫助讀者深入理解機器學習原理,本書以機器學習算法為主題,詳細介紹了算法中涉及的數學理論。此外,本書注重機器學習的實際應用,在理論介紹中穿插項目實例,幫助讀者掌握機器學習研究的方法。
本書共分為19章。第1章為概述,主要介紹了機器學習的概念、組成、分類、模型評估方法,以及sklearn模塊的基礎知識。第2~6章分別介紹了分類和回歸問題的常見模型,包括邏輯回歸與最大熵模型、k近鄰模型、決策樹模型、樸素貝葉斯模型、支持向量機模型。每章最後均以一個實例結尾,使用sklearn模塊實現。第7章介紹集成學習框架,包括Bagging、Boosting以及Stacking的基本思想和具體算法。第8~10章主要介紹無監督算法,包括EM算法、降維算法以及聚類算法。第11章介紹神經網絡與深度學習,包括卷積神經網絡、循環神經網絡、生成對抗網絡、圖卷積神經網絡等基礎網絡。第7~11章均以一個實例結尾。第12~18章包含7個綜合項目實戰,幫助讀者理解前面各章所講內容。第19章使用多種機器學習算法實現了一個用戶行為分類器,通過算法間的對比幫助讀者深入掌握算法細節。
第12~19章提供視頻講解,可掃描對應章節二維碼進行觀看。數據集、源代碼可掃描目錄處二維碼下載。
機器學習是一門交叉學科,涉及概率論、統計學、凸優化等多個學科或分支,發展過程中還受到了生物學、經濟學的啟發,這樣的特性決定了機器學習具有廣闊的發展前景。但也正因如此,想要在短時間內“速成”機器學習幾乎是不現實的。本書希望帶領讀者從基礎出發,由淺入深,逐步掌握機器學習的常見算法。在此基礎上,讀者將有能力根據實際問題決定使用何種算法,甚至可以查閱有關算法的最新文獻,為產品研發或項目研究鋪平道路。
為了更好地專注於機器學習的介紹,書中涉及的數學和統計學基礎理論(如矩陣論、概率分布等)不會過多介紹。因此,如果讀者希望完全理解書中的理論推導,還需要對統計學、數學相關知識有一定的了解。書中的項目實例全部使用Python實現,需要讀者在閱讀以前對Python編程語言及其科學計算模塊(如NumPy、SciPy等)有一定的了解。
本書的作者為呂云翔、王淥汀、袁琪、張凡、韓雪婷,曾洪立參與了部分內容的編寫及資料整理工作。
由於我們的水平和能力有限,書中難免有疏漏之處。懇請各位同仁和廣大讀者給予批評指正。
編者2021年5月於北京
目次
目錄
第1章機器學習概述
資源下載
1.1機器學習的組成
1.2分類問題及回歸問題
1.3監督學習、半監督學習和無監督學習
1.4生成模型及判別模型
1.5模型評估
1.5.1訓練誤差及泛化誤差
1.5.2過擬合及欠擬合
1.6正則化
1.7Scikitlearn模塊
1.7.1數據集
1.7.2模型選擇
第2章邏輯回歸及最大熵模型
2.1線性回歸
2.1.1一元線性回歸
2.1.2多元線性回歸
2.2廣義線性回歸
2.2.1邏輯回歸
2.2.2多分類邏輯回歸
2.2.3交叉熵損失函數
2.3最大熵模型
2.3.1最大熵模型的導出
2.3.2最大熵模型與邏輯回歸之間的關係
2.4評價指標
2.4.1混淆矩陣
2.4.2準確率
2.4.3精確率與召回率
2.4.4PR曲線
2.4.5ROC曲線與AUC曲線
2.5實例: 基於邏輯回歸實現乳腺癌預測
第3章k近鄰算法
3.1k值的選取
3.2距離的度量
3.3快速檢索
3.4實例: 基於k近鄰算法實現鳶尾花分類
第4章決策樹
4.1特徵選擇
4.1.1信息增益
4.1.2信息增益比
4.2決策樹生成算法CART
4.3決策樹剪枝
4.3.1預剪枝
4.3.2後剪枝
4.4實例: 基於決策樹實現葡萄酒分類
第5章樸素貝葉斯分類器
5.1極大似然估計
5.2樸素貝葉斯分類
5.3拉普拉斯平滑
5.4樸素貝葉斯分類器的極大似然估計解釋
5.5實例: 基於樸素貝葉斯實現垃圾短信分類
第6章支持向量機
6.1最大間隔及超平面
6.2線性可分支持向量機
6.3線性支持向量機
6.4合頁損失函數
6.5核技巧
6.6二分類問題與多分類問題
6.6.1一對一
6.6.2一對多
6.6.3多對多
6.7實例: 基於支持向量機實現葡萄酒分類
第7章集成學習
7.1偏差與方差
7.2Bagging及隨機森林
7.2.1Bagging
7.2.2隨機森林
7.3Boosting及AdaBoost
7.3.1Boosting
7.3.2AdaBoost
7.4提升樹
7.4.1殘差提升樹
7.4.2GBDT
7.4.3XGBoost
7.5Stacking
7.6實例: 基於梯度下降樹實現波士頓房價預測
第8章EM算法及其應用
8.1Jensen不等式
8.2EM算法
8.3高斯混合模型GMM
8.4隱馬爾可夫模型
8.4.1計算觀測概率的輸出
8.4.2估計隱馬爾可夫模型的參數
8.4.3隱變量序列預測
8.5實例: 基於高斯混合模型實現鳶尾花分類
第9章降維
9.1主成分分析
9.1.1方差即協方差的無偏估計
9.1.2實例: 基於主成分分析實現鳶尾花數據降維
9.2奇異值分解
9.2.1奇異值分解的構造
9.2.2奇異值分解用於數據壓縮
9.2.3SVD與PCA的關係
9.2.4奇異值分解的幾何解釋
9.2.5實例: 基於奇異值分解實現圖片壓縮
第10章聚類
10.1距離度量
10.1.1閔可夫斯基距離
10.1.2余弦相似度
10.1.3馬氏距離
10.1.4漢明距離
10.2層次聚類
10.3KMeans聚類
10.4KMedoids聚類
10.5DBSCAN
10.6實例: 基於KMeans實現鳶花聚類
第11章神經網絡與深度學習
11.1神經元模型
11.2多層感知機
11.3損失函數
11.4反向傳播算法
11.4.1梯度下降法
11.4.2梯度消失及梯度爆炸
11.5卷積神經網絡
11.5.1卷積
11.5.2池化
11.5.3網絡架構
11.6循環神經網絡
11.7生成對抗網絡
11.8圖卷積神經網絡
11.9深度學習發展
11.10實例: 基於卷積神經網絡實現手寫數字識別
11.10.1MNIST數據集
11.10.2基於卷積神經網絡的手寫數字識別
第12章實戰: 基於KMeans算法的汽車行駛運動學片段的分類
12.1樣本聚類
12.1.1SSE
12.1.2輪廓分析
12.2汽車行駛運動學片段的提取
12.3基於KMeans的汽車行駛運動學片段分類
第13章實戰: 從零實現樸素貝葉斯分類器用於垃圾信息識別
13.1算法流程
13.2數據集載入
13.3樸素貝葉斯模型
13.3.1構造函數設計
13.3.2數據預處理
13.3.3模型訓練
13.3.4測試集預測
13.3.5主函數實現
第14章實戰: 基於邏輯回歸算法進行乳腺癌的識別
14.1數據集加載
14.2Logistic模塊
14.3模型評價
第15章實戰: 基於線性回歸、決策樹和SVM進行鳶尾花分類
15.1使用Logistic實現鳶尾花分類
15.2使用決策樹實現鳶尾花分類
15.3使用SVM實現鳶尾花分類
第16章實戰: 基於多層感知機模型和隨機森林模型的波士頓房價預測
16.1使用MLP實現波士頓房價預測
16.2使用隨機森林模型實現波士頓房價預測
第17章實戰: 基於生成式對抗網絡生成動漫人物
17.1生成動漫人物任務概述
17.2反卷積網絡
17.3DCGAN
17.4基於DCGAN的動漫人物生成
第18章實戰: 基於主成分分析法、隨機森林算法和SVM算法的人臉識別問題
18.1數據集介紹與分析
18.2LBP算子
18.3提取圖片特徵
18.4基於隨機森林算法的人臉識別問題
18.5基於SVM算法的人臉識別問題
第19章實戰: 使用多種機器學習算法實現基於用戶行為數據的用戶分類器
19.1基於機器學習的分類器的技術概述
19.2工程數據的提取聚合和存儲
19.2.1數據整合的邏輯流程
19.2.2Sqoop數據同步
19.2.3基於Hive的數據倉庫
19.2.4基於Azkaban的數據倉庫的調度任務
19.2.5數據倉庫的數據集成和數據清洗
19.2.6整合後的數據表
19.3數據展示和分析
19.3.1數據集的選取和業務背景的描述
19.3.2各維度信息詳細說明
19.3.3各維度數據的描述性統計
19.3.4各維度數據的可視化
19.4特徵工程
19.4.1標準化
19.4.2區間縮放
19.4.3歸一化
19.4.4對定性特徵進行onehot編碼
19.4.5缺失值填補
19.4.6數據傾斜
19.5模型訓練和結果評價
19.5.1構造模型思路
19.5.2模型訓練的流程
19.5.3KFold交叉驗證
19.6各分類器模型的訓練和結果評價
19.6.1利用Python的sklearn包進行模型訓練的過程梳理
19.6.2邏輯斯諦分類模型的訓練和結果評價
19.6.3最小近鄰算法模型的訓練和結果評價
19.6.4線性判別分析模型的訓練和結果評價
19.6.5樸素貝葉斯算法的模型的訓練和結果評價
19.6.6決策樹模型的訓練和結果評價
19.6.7支持向量機模型的訓練和結果評價
19.7模型提升——集成分類器
19.7.1Boosting提升算法
19.7.2AdaBoost提升算法
19.7.3AdaBoost實現過程及實驗結果
附錄A用戶歷史充值情況數據表
附錄B用戶各類訂單余額情況
附錄C各省用戶收到公示消息後的充值情況
參考文獻
主題書展
更多書展本週66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。