1.直觀性:配套900分鐘微課和慕課視頻,方便讀者隨時隨地學習。
2.系統性:在講解機器學習的同時充分補充相關基礎知識(特別是數學知識),讓機器學習的知識體系更加系統化,方便讀者閱讀。
3. 實踐性:在充分理解概念與原理的基礎上開展Python編程實踐(Scikit-learn、TensorFlow2),讓讀者真正掌握機器學習相關編程。
1. 關於本書
2006年,我國在高等院校開展本科專業工程認證工作。其目的是更新教育觀念,以產出為導向來重構課程體系,從根本上提升本科教學質量。中國工程教育專業認證協會修訂的《工程教育認證標準》(2015版)明確提出本科培養目標應具備將專業知識用於解決複雜工程問題的能力。這就要求本科課程體系應互相銜接,形成層次,共同服務於專業培養目標。同時還需加強實踐教學,提升學生的動手能力。
本書是作者編寫的程序設計能力培養系列教材中的最後一本,前兩本分別是《C++語言程序設計(MOOC版)》《Java語言程序設計(MOOC版)》。這三本教材針對計算機、軟件工程、大數據、人工智能等本科專業工程認證,將程序設計能力培養劃分為程序設計基礎(初級)、應用程序開發(中級)和專業研究開發(高級)三個階段,以C/C++作為
零基礎入門語言,然後通過Java語言學習應用型編程開發,通過Python語言學習研究型編程開發。
這三個階段互相銜接,並在實踐內容上逐層遞進、加強,使本科生在畢業時具備較高的應用和研究開發能力。
這本《機器學習及其Python實踐》面向專業研究與創新能力培養,重點講解機器學習的基本原理和前沿思想,而Python語言則作為開展機器學習編程實踐的重要輔助工具。
2. 本書特色
系統性: 在講解機器學習的同時充分補充相關基礎知識(特別是數學知識),讓機器學習的知識體系更加系統化,方便讀者學習。
直觀性: 通過背景介紹和動機分析,讓機器學習的學術抽象重回問題本源,方便讀者理解。
實用性: 在充分理解概念與原理的基礎上開展Python編程實踐(scikitlearn、TensorFlow 2),讓書本知識落地,提高讀者的動手能力。
3. 內容摘要
本書共8章,按順序可分為三部分: 機器學習基礎(第1~3章)、統計學習(第4~6章)、神經網絡與深度學習(第7~8章)。全部內容均同步安排Python編程實踐,並配有完整的示例代碼(基於scikitlearn和TensorFlow 2)。
第1章為機器學習導論。本章講解機器學習及其編程的基本概念,並補充相關的數學基礎知識,最後介紹機器學習教學的三個層面(即設計、編程與應用)。學習要點: 數學模型及其編程、Python語言、最小二乘法、極大似然估計、隨機變量與隨機模型、數學符號與數學語言、Jensen不等式、可視化建模與數學建模、新冠疫情的SIR傳染病模型、多元模型及其矩陣表示、函數向量/矩陣及其求導。
第2章為回歸分析。本章以回歸分析為主線,詳細講解機器學習過程中的基本概念、術語、算法步驟及Python編程實踐。學習要點: Python編程環境與數據集、Anaconda/Jupyter集成開發環境的安裝和使用、NumPy/Pandas/Matplotlib/scikitlearn庫的使用、數據預處理、皮爾遜相關係數、onehot編碼、MinMax和zscore標準化、訓練集與測試集、梯度下降法、坐標下降法、均方誤差、R方、模型評價與k折交叉驗證、超參數與網格搜索法、正則化原理、嶺回歸與LASSO回歸、換元法、人口增長模型與邏輯斯諦回歸。
第3章為分類問題。本章講解機器學習中的分類問題,並詳細介紹幾種經典的分類器模型,最後再進一步講解機器學習中的特徵降維。學習要點: 貝葉斯分類器、樸素貝葉斯分類器、概率分布的參數估計、邏輯斯諦回歸分類器、牛頓法、二分類與多分類、交叉熵、k近鄰分類器與距離度量、線性判別分析、特徵空間與向量投影、決策樹及其學習算法(ID3/C4.5/CART)、信息熵與基尼指數、分類評價的正確率/精確率/召回率/F1值/PR曲線/ROC曲線、特徵降維、坐標變換及其矩陣表示、特徵值分解、奇異值分解、PCA/KPCA/LDA/MDS/Isomap/LLE/SNE降維算法。
第4章為統計學習理論與支持向量機。本章重點講解統計學習理論與支持向量機。學習要點: 經驗誤差與泛化誤差、ERM/SRM歸納原則、ERM歸納原則一致性的充要條件、假設空間及其複雜度、增長函數與VC維、泛化誤差的上界、影響泛化誤差的因素、設計具有泛化能力的學習模型、PAC可學習、機器學習模型的方差與偏差、線性可分、線性/非線性支持向量機、拉格朗日乘子法與對偶問題、序列最小優化算法。
第5章為聚類問題。本章講解機器學習中的聚類問題及相關的模型與算法。學習要點: 分類問題與聚類問題、混合概率模型及其參數估計、EM算法、高斯混合模型、三硬幣模型、k均值聚類、密度聚類DBSCAN、向量量化等。
第6章為概率圖模型與概率推理。本章介紹基於圖的概率模型及其概率推理方法。學習要點: 邏輯推理與概率推理、生成式與判別式模型、貝葉斯網及其精確推理、和積消元算法、信念傳播算法、蒙特卡羅仿真、馬爾可夫鏈、輪盤賭采樣算法、直接采樣法、吉布斯采樣、MH采樣、平穩馬爾可夫鏈及其充分條件、Metropolis準則、模擬退火算法、遺傳算法、PageRank網頁排名算法、概率向量與隨機矩陣、隱馬爾可夫模型(HMM)、前向算法與後向算法、Viterbi算法、BaumWelch算法、馬爾可夫隨機場(MRF)、條件隨機場(CRF)。
第7章為神經網絡基礎。本章講解神經網絡及其應用,以及TensorFlow 2機器學習框架(含Keras高層接口)。學習要點: 生物神經元、MP神經元模型、感知機與Hebb學習規則、常用激活函數sigmoid/ReLU/tanh/softmax、小批量梯度下降法、多層前饋神經網絡、輸入層/隱層/輸出層的功能與設計、基於特徵/基於數據的機器學習、深度學習、梯度爆炸/梯度消失、過擬合、前向計算與反向求導、反向傳播算法(BP算法)、RMSProp算法、Adam算法、批次標準化、早停、Dropout、TensorFlow 2下載與安裝、張量及其運算、計算圖與自動微分、使用TensorFlow底層接口/ Keras高層接口搭建神經網絡模型。
第8章為深度學習。本章重點講解卷積神經網絡(CNN)、循環神經網絡(RNN)、自編碼器(AE)、生成對抗網絡(GAN)等經典深度學習模型。學習要點: 濾波與卷積運算、局部連接與權值共享、池化、LeNet5卷積神經網絡、詞向量、RNN神經元與RNN網絡層、LSTM神經元與LSTM網絡層、自編碼器與變分自編碼器、KL散度、變分法與變分推斷、生成對抗網絡、DCGAN、WGAN與Wesserstein距離。
4. 使用建議
開設“機器學習”“統計學習”或相關課程的教師可將本書作為授課教材,並可免費獲得配套教學課件等資源。參加在線課程學習的讀者可將本書作為配套教材閱讀。因作者水平所限,書中難免存在疏漏之處。如您發現錯誤,煩請郵件告知,在此謹表衷心感謝。
如果將本書作為課堂教學用書,建議安排64學時(含8個實驗學時)。如果只有48學時(含4個實驗學時),則建議統計學習部分只選講第4章; 如果只有32學時(無實驗學時),則建議統計學習、神經網絡與深度學習這兩部分分別只選講第4章和第7章。
5. 教學資源說明
本書提供豐富的教學資源,包括完整的教學視頻、PPT課件、教學大綱、習題答案(含編程實踐題)和所有Python
實現的源碼。讀者掃描封底“文泉課堂”塗層下的二維碼、綁定微信帳號之後,就可以
觀看教學視頻。從清華大學出版社官方微信公眾號“書圈”(
見封底)可以下載其他資源。關於資源下載及使用中的問題。
6. 致謝
作者通過“學堂在線”“中國大學MOOC”等慕課平臺
積累了一些在線課程教學的經驗,所開設的“C++語言程序設計”課程被教育部認定為第一批“國家級一流本科課程”。作者將在
“學堂在線”平臺
同步開設與本書配套的“機器學習及其Python實踐”在線課程,供讀者免費學習。
在本書的出版過程中,得到了清華大學出版社編輯的熱情幫助和悉心指導,在此表示衷心的感謝。
最後,感謝家人的理解和支持。
作者2022年4月於北京
目錄
第1章機器學習導論
1.1測算房價的數學模型
1.1.1通過樣本確定模型參數
1.1.2為機器學習模型編寫程序
1.2隨機模型及其學習算法
1.2.1最小二乘法
1.2.2極大似然估計
1.2.3回歸分析方法
1.3隨機變量與數學語言
1.3.1隨機變量
1.3.2隨機變量應用舉例
1.3.3數學語言
1.4更加複雜的數學模型
1.4.1數學形式未知的模型
1.4.2多元模型
1.4.3用矩陣描述問題及算法過程
1.5機器學習問題
1.6本章習題
第2章回歸分析
2.1編程環境與數據集
2.2數據集加載與預處理
2.2.1加載並瀏覽數據集
2.2.2缺失值與重復值
2.2.3特徵選擇
2.2.4非數值型特徵的編碼
2.2.5數值型特徵的標準化
2.3模型訓練與評價
2.3.1訓練集與測試集
2.3.2模型訓練與梯度下降法
2.3.3模型評價與k折交叉驗證
2.4正則化
2.4.1正則化方法
2.4.2嶺回歸與超參數調優
2.4.3LASSO回歸與坐標下降法
2.5非線性回歸
2.5.1換元法
2.5.2邏輯斯諦回歸
2.6本章習題
第3章分類問題
3.1貝葉斯分類器
3.1.1貝葉斯決策
3.1.2樸素貝葉斯與參數估計
3.1.3邏輯斯諦回歸與牛頓法
3.2非貝葉斯分類器
3.2.1k近鄰分類器與距離度量
3.2.2線性判別分析與特徵空間
3.2.3決策樹
3.3多分類問題與分類模型評價
3.3.1二分類與多分類
3.3.2分類模型的評價指標
3.3.3PR曲線與ROC曲線
3.4特徵降維
3.4.1線性代數基礎
3.4.2主成分分析
3.4.3線性判別分析
3.4.4非線性降維
3.5本章習題
第4章統計學習理論與支持向量機
4.1統計學習理論
4.1.1學習問題與ERM歸納原則
4.1.2ERM歸納原則一致性的充要條件
4.1.3泛化誤差上界與PAC可學習
4.1.4兩種機器學習的歸納原則
4.2線性可分支持向量機
4.2.1最優分類超平面與支持向量
4.2.2拉格朗日乘子法與對偶問題
4.2.3最優分類超平面求解算法
4.3非線性可分的支持向量機
4.3.1線性支持向量機
4.3.2非線性支持向量機
4.4SVM分類器及其Python實現
4.5本章習題
第5章聚類問題
5.1聚類問題的提出
5.1.1分類問題概述
5.1.2聚類問題概述
5.1.3混合概率模型及其參數估計問題
5.2EM算法
5.2.1EM算法原理
5.2.2高斯混合模型
5.2.3三硬幣模型
5.3k均值聚類
5.3.1k均值聚類算法
5.3.2關於k均值聚類的討論
5.3.3使用scikitlearn庫中的k均值聚類模型
5.4密度聚類DBSCAN
5.4.1DBSCAN聚類術語
5.4.2DBSCAN聚類算法
5.4.3使用scikitlearn庫中的DBSCAN聚類算法
5.5向量量化
5.5.1向量量化問題
5.5.2LBGVQ算法
5.6本章習題
第6章概率圖模型與概率推理
6.1貝葉斯網
6.1.1聯合概率分布及其推理
6.1.2貝葉斯網概述
6.1.3貝葉斯網的推理
6.2MCMC算法基礎
6.2.1蒙特卡洛仿真
6.2.2貝葉斯網的近似推理
6.2.3馬爾可夫鏈
6.2.4隨機向量的馬爾可夫鏈
6.3MCMC算法家族
6.3.1MCMC采樣算法
6.3.2MCMC最優化算法
6.3.3MCMC互評算法
6.4隱馬爾可夫模型
6.4.1HMM的形式化表示及其三個基本問題
6.4.2HMM的三個基本算法
6.4.3HMM建模與實驗
6.5無向圖模型
6.5.1馬爾可夫隨機場
6.5.2條件隨機場
6.6本章習題
第7章神經網絡基礎
7.1神經元模型
7.1.1生物神經元與MP神經元模型
7.1.2常用激活函數
7.1.3小批量梯度下降算法
7.2神經網絡
7.2.1多層前饋神經網絡
7.2.2輸出層的設計
7.2.3隱層的設計
7.2.4隱層與深度學習
7.3反向傳播算法
7.3.1模型參數及其學習算法
7.3.2前向計算與反向求導
7.3.3反向傳播算法
7.4TensorFlow機器學習框架
7.4.1TensorFlow及其安裝
7.4.2TensorFlow底層接口編程
7.4.3使用TensorFlow底層接口搭建神經網絡
7.5Keras高層接口建模
7.5.1從編程到裝配
7.5.2使用Keras高層接口建立回歸模型
7.5.3使用Keras高層接口建立分類模型
7.6本章習題
第8章深度學習
8.1卷積神經網絡
8.1.1信號的特徵提取
8.1.2卷積的實現細節
8.1.3卷積神經網絡的基本結構
8.1.4LeNet5模型編程實戰
8.2循環神經網絡
8.2.1序列數據的語義特徵
8.2.2RNN神經元與RNN網絡層
8.2.3RNN模型編程實戰
8.2.4LSTM模型
8.3自編碼器
8.3.1深入理解神經網絡
8.3.2自編碼器及其編程實戰
8.3.3變分法與KL散度
8.3.4變分自編碼器
8.3.5變分自編碼器編程實戰
8.4生成對抗網絡
8.4.1生成器的工作原理
8.4.2生成對抗網絡概述
8.4.3DCGAN及其編程實戰
8.4.4WGAN及其編程實戰
8.5結束語
8.6本章習題
參考文獻
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。