商品簡介
本書主要圍繞整個數據分析方法論的常規流程,介紹了Python常用的工具包,包括科學計算庫Numpy、數據分析庫Pandas、數據挖掘庫Scikit-Learn,以及數據可視化庫Matplotlib和Seaborn的基本知識,並從數據分析挖掘的實際業務應用出發,講解了互聯網、金融及零售等行業的真實案例,比如客戶分群、產品精准營銷、房價預測、特徵降維等,深入淺出、循序漸進地介紹了Python數據分析的全過程。 本書內容精煉、重點突出、案例豐富,適合在企業中從事數據分析、數據挖掘、機器學習等工作的人員學習使用,同樣適合想從事數據分析挖掘工作的各大中專院校的學生與教師,以及其他對數據分析挖掘技術領域有興趣愛好的各類人員。
作者簡介
尚濤,畢業于上海交通大學數學系,擁有數學碩士學位,研究方向為數據挖掘及機器學習領域,曾任職于平安科技、易方達基金。現任職於南方基金,專注于信用風險評分、精准營銷、推薦系統等領域的數據挖掘項目的研發工作,擁有超過10年的數據挖掘和優化建模經驗,以及多年使用Python、SAS、R等軟件的經驗。在從業經歷中,為所在公司的業務方成功實施了眾多深受好評的數據挖掘項目,取得了較好的業務價值。
名人推薦
內容全面:借助5大Python工具庫,實現數據分析從獲取到建模全流程覆蓋;
貼合實際:不空講Python語法,清晰簡明地介紹如何用Python來處理、分析數據;
熱點案例:覆蓋6大熱點應用領域,可直接參考研發,實現數據變現;
學習資源:提供所有案例源代碼和數據,供讀者操作練習,快速上手
目次
第一章 數據分析方法 11.1 什麼是數據分析2 1.2 數據分析標準流程2 1.3 數據清洗7 1.4 數據探索8 1.5 模型開發10 1.6 模型應用11 第二章 初識Python12 2.1 Python基本概述13 2.2 Python編程語法基礎14 2.3 數據分析常用Python庫22 2.4 第三方Python庫介紹23 第三章 NumPy數組與矩陣25 3.1 Ndarray對象26 3.2 數據類型27 3.3 數組屬性28 3.4 創建數組30 3.5 數據索引與切片34 3.6 數組操作37 3.7 數組排序51 3.8 函數54 3.9 矩陣62 第四章 Pandas數據分析65 4.1 系列(Series)66 4.2 數據幀(DataFrame)68 4.3 基本功能介紹70 4.4 讀取和寫入數據78 4.5 索引和選擇數據84 4.6 數據合併87 4.7 累計與分組91 4.8 時間序列處理96 4.9 缺失數據處理101 4.10 函數107 4.11 描述性統計115 4.12 繪製圖形118 第五章 Scikit-Learn數據挖掘126 5.1 機器學習問題127 5.2 機器學習的基本流程127 5.3 數據處理128 5.4 特徵選擇131 5.5 模型調用135 5.6 模型參數說明138 5.7 交叉驗證148 5.8 模型部署151 第六章 數據可視化153 6.1 Matplotlib繪製圖形154 6.2 Seaborn繪製圖形163 6.3 重要類型圖形的繪製184 第七章 數據導入與導出192 7.1 連接數據庫193 7.2 讀取外部數據194 7.3 導出數據201 第八章 數據預處理203 8.1 數據去重204 8.2 缺失值處理205 8.3 變量操作210 8.4 樣本選擇217 8.5 數據集操作220 第九章 數據探索226 9.1 集中趨勢227 9.2 離散程度230 9.3 分佈狀態234 9.4 相關分析236 第十章 線性回歸分析241 10.1 線性回歸模型242 10.2 最小二乘估計243 10.3 顯著性檢驗244 10.4 預測245 10.5 相關性246 10.6 共線性247 10.7 案例分析――波士頓地區房價預測247 第十一章 Logistic回歸分析260 11.1 邏輯回歸模型介紹261 11.2 案例分析――泰坦尼克生存預測262 第十二章 決策樹275 12.1 決策樹介紹276 12.2 案例分析――金融產品推薦277 第十三章 主成分分析292 13.1 主成分分析的數學模型293 13.2 PCA函數說明294 13.3 案例分析――數據降維295 第十四章 聚類分析304 14.1 距離305 14.2 聚類方法306 14.3 確定聚類數309 14.4 聚類的分析步驟311 14.5 案例分析――客戶群聚類分析312 第十五章 時間序列分析323 15.1 時間序列的組成部分324 15.2 確定性的時間序列模型325 15.3 隨機時間序列模型325 15.4 ARMA模型的識別327 15.5 時間序列的分析步驟329 15.6 模型參數的估計329 15.7 案例分析――大氣二氧化碳濃度預測331