Python大數據應用基礎(簡體書)
商品資訊
系列名:數據科學與大數據技術專業系列規劃教材
ISBN13:9787115543868
出版社:人民郵電出版社
作者:呂會紅; 邱靜怡
出版日:2023/06/01
裝訂/頁數:平裝/300頁
規格:24cm*17cm (高/寬)
版次:一版
商品簡介
作者簡介
名人/編輯推薦
目次
商品簡介
本書內容由淺入深,實例指導性強,通過大量的實例講述Python程序設計基礎,同時結合Python語言的特性,講解各類基於Python的大數據應用實例。本書全部例題代碼適用於Python3.6及更高版本。
全書共13章,主要內容包括大數據及Python概述,Python基礎知識、程序流程控制結構、常用組合數據類型、函數與模塊、面向對象程序設計、文件相關操作、數據預處理和數據分析、使用NumPy進行處理數據分析、使用Pandas處理結構化數據、使用NumPy和Pandas進行數據預處理、使用scikit-learn進行機器學習,以及綜合案例。
本書適合作為普通高等院校非計算機專業大數據相關課程的教材,也可以作為職業培訓教育及相關技術人員的參考用書。
全書共13章,主要內容包括大數據及Python概述,Python基礎知識、程序流程控制結構、常用組合數據類型、函數與模塊、面向對象程序設計、文件相關操作、數據預處理和數據分析、使用NumPy進行處理數據分析、使用Pandas處理結構化數據、使用NumPy和Pandas進行數據預處理、使用scikit-learn進行機器學習,以及綜合案例。
本書適合作為普通高等院校非計算機專業大數據相關課程的教材,也可以作為職業培訓教育及相關技術人員的參考用書。
作者簡介
呂會紅 廣東外語外貿大學信息學院實驗中心實驗師,主持教育廳創新人才類項目等多個項目,編寫《計算機網絡實驗教程》《移動自組織網絡——體系結構與路由技術》等教材。
名人/編輯推薦
案例實用,內容全面--本書采用目前大數據領域的熱門軟件Python編寫,結合python語言的特性,全面講解大數據相關的數據處理和數據挖掘的相關知識。內容從基礎理論到實踐應用,由淺入深、循序漸進,並配以大量的圖例和實例講解,能夠使讀者快速地了解和掌握大數據原理及應用案例。
涵蓋實驗教學內容--本書還將實驗環節及實操內容融入到各個知識點與課程教學中,滿足該課程對實踐教學的需求。
配套資源豐富--本書還配套豐富的教學資源與學習資源,包括教案、課件、數據源的教學輔助資源,後續還將提供課程的教學視頻的學習資源。
涵蓋實驗教學內容--本書還將實驗環節及實操內容融入到各個知識點與課程教學中,滿足該課程對實踐教學的需求。
配套資源豐富--本書還配套豐富的教學資源與學習資源,包括教案、課件、數據源的教學輔助資源,後續還將提供課程的教學視頻的學習資源。
目次
第 1章 大數據及Python概述 1
1.1 大數據的發展和現狀 1
1.1.1 大數據的產生 1
1.1.2 大數據的發展歷程 2
1.1.3 大數據國內外發展現狀 4
1.2 大數據的概念 5
1.2.1 數據量大 5
1.2.2 數據類型繁多 6
1.2.3 處理速度快 7
1.2.4 價值密度低 8
1.3 大數據的應用 8
1.4 大數據的關鍵技術 9
1.4.1 大數據采集技術 9
1.4.2 大數據預處理技術 10
1.4.3 大數據存儲及管理技術 10
1.4.4 大數據分析及挖掘技術 10
1.4.5 大數據展現與應用技術 11
1.5 大數據分析的現狀和步驟 12
1.5.1 大數據分析的現狀 12
1.5.2 大數據分析創造價值的步驟 13
1.6 Python在大數據應用中的重要性 14
1.7 Python與數據分析的關係 14
1.7.1 數據分析 14
1.7.2 數據分析的基本步驟 15
1.7.3 Python與數據分析 16
1.7.4 數據分析相關的Python庫 16
思考與練習 18
第 2章 Python基礎知識 19
2.1 Python概述 19
2.1.1 Python語言的發展歷程 19
2.1.2 Python的特點 20
2.1.3 Python的下載、安裝與使用 22
2.1.4 Anaconda開發環境的安裝和使用 26
2.2 基礎數據類型 30
2.2.1 數字 30
2.2.2 字符串 31
2.3 常量與變量 33
2.4 運算符與表達式 34
2.4.1 算術運算符 35
2.4.2 關係運算符 35
2.4.3 邏輯運算符 36
2.4.4 位運算符 36
2.4.5 成員和身份運算符 36
2.4.6 賦值運算符 37
2.5 常用Python內置函數 37
2.5.1 基本輸入/輸出函數 38
2.5.2 常用轉換函數 39
2.5.3 常用數學函數 40
2.5.4 其他常用函數 40
思考與練習 42
第3章 程序流程控制結構 43
3.1 順序結構 43
3.2 分支結構 44
3.2.1 單分支結構 44
3.2.2 雙分支結構 45
3.2.3 多分支選擇結構 46
3.2.4 分支結構的嵌套 48
3.3 循環結構 49
3.3.1 while 語句 49
3.3.2 for 語句 50
3.3.3 循環控制語句 51
3.3.4 循環嵌套 53
思考與練習 54
第4章 常用組合數據類型 55
4.1 列表 55
4.1.1 列表的創建 55
4.1.2 列表的基本操作 56
4.1.3 列表常用方法 58
4.1.4 列表操作符 63
4.1.5 內置函數對列表的操作 64
4.1.6 切片操作 65
4.1.7 列表應用舉例 67
4.2 元組 69
4.2.1 元組的創建 69
4.2.2 元組的基本操作 69
4.2.3 元組運算符 70
4.2.4 元組和列表的區別 70
4.2.5 元組應用舉例 71
4.3 字典 72
4.3.1 字典的創建 72
4.3.2 字典的基本操作 73
4.3.3 字典常用方法 74
4.3.4 字典應用舉例 75
4.4 集合 76
4.4.1 集合的創建 76
4.4.2 集合的基本操作 77
4.4.3 集合常用方法 77
4.4.4 集合運算符 79
4.4.5 集合應用舉例 80
思考與練習 81
第5章 函數與模塊 82
5.1 函數概述 82
5.1.1 函數的功能 82
5.1.2 函數分類 82
5.2 函數的定義和調用 82
5.2.1 函數的定義和調用 82
5.2.2 函數的返回值 83
5.2.3 lambda表達式 84
5.3 函數的參數 85
5.3.1 形參和實參 85
5.3.2 參數的傳遞 86
5.3.3 參數類型 87
5.4 變量的作用域 88
5.4.1 局部變量 88
5.4.2 全局變量 88
5.5 函數的遞歸調用 89
5.6 模塊 91
5.6.1 導入模塊 91
5.7 常用標準模塊 92
5.7.1 math模塊 93
5.7.2 time 模塊 93
5.7.3 datetime模塊 95
5.7.4 calendar模塊 98
5.7.5 random庫 99
思考與練習 99
第6章 面向物件程序設計 101
6.1 面向物件概述 101
6.1.1 面向物件程序設計基礎 101
6.1.2 類和物件 102
6.2 類的定義與使用 102
6.2.1 定義類 102
6.2.2 創建類的實例 102
6.2.3 構造方法和析構方法 103
6.2.4 類變量和實例變量 104
6.2.5 訪問限制 105
6.2.6 實例方法、類方法和靜態方法 106
6.3 繼承 108
6.3.1 類的繼承 108
6.3.2 子類和父類的關係 110
6.3.3 方法重寫 111
6.3.4 子類繼承父類的構造方法 111
6.3.5 多重繼承 112
6.4 多態 113
6.5 特殊變量、方法與運算符重載 114
6.5.1 特殊變量和方法 114
6.5.2 運算符重載 116
思考與練習 117
第7章 文件相關操作 118
7.1 文件的類型 118
7.2 文本文件和二進制文件的操作方法 118
7.2.1 打開和關閉文件 118
7.2.2 文件物件常用操作 119
7.2.3 上下文管理語句 121
7.3 CSV和json文件的操作方法 122
7.3.1 數據的維度 122
7.3.2 CSV文件操作 122
7.3.3 JSON文件操作 125
思考與練習 127
第8章 數據預處理和數據分析 129
8.1 了解數據 129
8.2 數據質量 130
8.2.1 完整性 131
8.2.2 一致性 131
8.2.3 準確性 132
8.2.4 及時性 132
8.3 數據預處理 132
8.3.1 數據清洗 133
8.3.2 數據集成 136
8.3.3 數據轉換 136
8.3.4 數據消減 137
8.4 特征工程 138
8.4.1 特征選擇 138
8.4.2 特征構建 139
8.5 數據分析 140
8.5.1 數據分析常用分析思維模式 140
8.5.2 數據分析的經典算法 142
思考與練習 152
第9章 使用Numpy進行數據分析 154
9.1 NumPy概述 154
9.2 NumPy Ndarray物件 154
9.3 NumPy 數據類型 156
9.4 NumPy 數組屬性 158
9.5 NumPy 創建數組 160
9.6 NumPy 從數值範圍創建數組 161
9.7 NumPy 切片和索引 162
9.8 Numpy 數組操作 164
9.8.1 修改數組形狀 164
9.8.2 數組元素的添加與刪除 166
9.9 NumPy字符串函數 171
9.10 NumPy Matplotlib 172
9.10.1 安裝 Matplotlib 172
9.10.2 圖形中文顯示 173
9.10.3 繪制正弦波。 175
9.10.4 在同一圖中繪制多張子圖 176
9.10.5 生成條形圖 176
9.10.6 頻率分布圖 177
9.10.7 將直方圖的數字表示轉換為圖形 177
思考與練習 178
第 10章 使用Pandas處理結構化數據 179
10.1 Pandas數據結構Series 179
10.1.1 Series基本概念及創建 179
10.1.2 Series的索引 180
10.1.3 Series的基本技巧 182
10.2 Pandas數據結構Dataframe 183
10.2.1 基本概念及創建 183
10.2.2 Dataframe的索引 184
10.2.3 Dataframe的基本技巧 188
10.3 Pandas時間模塊 191
10.4 Pandas時刻數據 192
10.5 Pandas時間戳索引:DatetimeIndex 193
10.6 Pandas時期:Period 196
10.7 時間序列 - 索引及切片 196
10.8 時間序列 - 重采樣 198
10.9 數值計算和統計基礎 203
10.10 文本數據 206
10.11 合並 211
10.12 連接與修補 212
10.13 去重及替換 214
10.14 數據分組 216
10.15 數據讀取 217
思考與練習 218
第 11章 使用Numpy和Pandas對數據進行預處理 219
11.1 缺失值處理 219
11.1.1 判斷是否是缺失值:isnull,notnull 219
11.1.2 刪除缺失值:dropna 220
11.1.3 填充/替換缺失數據:fillna、replace 221
11.1.4 4. 缺失值插補 223
11.2 異常值分析和處理 225
11.2.1 正態分布3σ原則 225
11.2.2 箱型圖分析 227
11.3 數據歸一化/標準化 228
11.3.1 0-1標準化 229
11.3.2 Z-score標準化 229
11.4 數據連續屬性離散化 230
11.4.1 等寬法 230
11.4.2 等頻法 232
11.5 數據預處理案例:分析各省市各年度的流感人口數據 233
11.5.1 數據介紹和任務要求 233
11.5.2 流感數據的讀取與清洗 233
11.5.3 檢查數據 236
11.5.4 人口數據的清洗與重塑 238
11.5.5 拼接數據 240
思考與練習 241
第 12章 使用Scikit-learn進行機器學習 242
12.1 常用模塊 242
12.1.1 分類方法 242
12.1.2 回歸方法 246
12.1.3 聚類方法 248
12.1.4 模型選擇 250
12.2 機器學習選擇算法的策略 250
12.3 機器學習案例——識別 Iris(鳶尾花)類別 251
12.3.1 加載數據 251
12.3.2 數據可視化 252
12.3.3 使用邏輯回歸分類器識別 253
12.3.4 可視化模型結果 254
思考與練習 255
第 13章 綜合案例 256
13.1 綜合案例1 USDA食品數據庫簡單分析食品的營養成分 256
13.1.1 數據介紹和任務要求 256
13.1.2 數據預處理和數據拼接 257
13.1.3 數據分析 260
13.2 綜合案例2 利用泰坦尼克號數據進行生還者分析 261
13.2.1 泰坦尼克號問題之背景 261
13.2.2 問題解決方法 261
13.2.3 數據分析 262
13.2.4 邏輯回歸建模 272
13.2.5 交叉驗證 275
13.2.6 學習曲線 276
13.2.7 總結 279
思考與練習 279
1.1 大數據的發展和現狀 1
1.1.1 大數據的產生 1
1.1.2 大數據的發展歷程 2
1.1.3 大數據國內外發展現狀 4
1.2 大數據的概念 5
1.2.1 數據量大 5
1.2.2 數據類型繁多 6
1.2.3 處理速度快 7
1.2.4 價值密度低 8
1.3 大數據的應用 8
1.4 大數據的關鍵技術 9
1.4.1 大數據采集技術 9
1.4.2 大數據預處理技術 10
1.4.3 大數據存儲及管理技術 10
1.4.4 大數據分析及挖掘技術 10
1.4.5 大數據展現與應用技術 11
1.5 大數據分析的現狀和步驟 12
1.5.1 大數據分析的現狀 12
1.5.2 大數據分析創造價值的步驟 13
1.6 Python在大數據應用中的重要性 14
1.7 Python與數據分析的關係 14
1.7.1 數據分析 14
1.7.2 數據分析的基本步驟 15
1.7.3 Python與數據分析 16
1.7.4 數據分析相關的Python庫 16
思考與練習 18
第 2章 Python基礎知識 19
2.1 Python概述 19
2.1.1 Python語言的發展歷程 19
2.1.2 Python的特點 20
2.1.3 Python的下載、安裝與使用 22
2.1.4 Anaconda開發環境的安裝和使用 26
2.2 基礎數據類型 30
2.2.1 數字 30
2.2.2 字符串 31
2.3 常量與變量 33
2.4 運算符與表達式 34
2.4.1 算術運算符 35
2.4.2 關係運算符 35
2.4.3 邏輯運算符 36
2.4.4 位運算符 36
2.4.5 成員和身份運算符 36
2.4.6 賦值運算符 37
2.5 常用Python內置函數 37
2.5.1 基本輸入/輸出函數 38
2.5.2 常用轉換函數 39
2.5.3 常用數學函數 40
2.5.4 其他常用函數 40
思考與練習 42
第3章 程序流程控制結構 43
3.1 順序結構 43
3.2 分支結構 44
3.2.1 單分支結構 44
3.2.2 雙分支結構 45
3.2.3 多分支選擇結構 46
3.2.4 分支結構的嵌套 48
3.3 循環結構 49
3.3.1 while 語句 49
3.3.2 for 語句 50
3.3.3 循環控制語句 51
3.3.4 循環嵌套 53
思考與練習 54
第4章 常用組合數據類型 55
4.1 列表 55
4.1.1 列表的創建 55
4.1.2 列表的基本操作 56
4.1.3 列表常用方法 58
4.1.4 列表操作符 63
4.1.5 內置函數對列表的操作 64
4.1.6 切片操作 65
4.1.7 列表應用舉例 67
4.2 元組 69
4.2.1 元組的創建 69
4.2.2 元組的基本操作 69
4.2.3 元組運算符 70
4.2.4 元組和列表的區別 70
4.2.5 元組應用舉例 71
4.3 字典 72
4.3.1 字典的創建 72
4.3.2 字典的基本操作 73
4.3.3 字典常用方法 74
4.3.4 字典應用舉例 75
4.4 集合 76
4.4.1 集合的創建 76
4.4.2 集合的基本操作 77
4.4.3 集合常用方法 77
4.4.4 集合運算符 79
4.4.5 集合應用舉例 80
思考與練習 81
第5章 函數與模塊 82
5.1 函數概述 82
5.1.1 函數的功能 82
5.1.2 函數分類 82
5.2 函數的定義和調用 82
5.2.1 函數的定義和調用 82
5.2.2 函數的返回值 83
5.2.3 lambda表達式 84
5.3 函數的參數 85
5.3.1 形參和實參 85
5.3.2 參數的傳遞 86
5.3.3 參數類型 87
5.4 變量的作用域 88
5.4.1 局部變量 88
5.4.2 全局變量 88
5.5 函數的遞歸調用 89
5.6 模塊 91
5.6.1 導入模塊 91
5.7 常用標準模塊 92
5.7.1 math模塊 93
5.7.2 time 模塊 93
5.7.3 datetime模塊 95
5.7.4 calendar模塊 98
5.7.5 random庫 99
思考與練習 99
第6章 面向物件程序設計 101
6.1 面向物件概述 101
6.1.1 面向物件程序設計基礎 101
6.1.2 類和物件 102
6.2 類的定義與使用 102
6.2.1 定義類 102
6.2.2 創建類的實例 102
6.2.3 構造方法和析構方法 103
6.2.4 類變量和實例變量 104
6.2.5 訪問限制 105
6.2.6 實例方法、類方法和靜態方法 106
6.3 繼承 108
6.3.1 類的繼承 108
6.3.2 子類和父類的關係 110
6.3.3 方法重寫 111
6.3.4 子類繼承父類的構造方法 111
6.3.5 多重繼承 112
6.4 多態 113
6.5 特殊變量、方法與運算符重載 114
6.5.1 特殊變量和方法 114
6.5.2 運算符重載 116
思考與練習 117
第7章 文件相關操作 118
7.1 文件的類型 118
7.2 文本文件和二進制文件的操作方法 118
7.2.1 打開和關閉文件 118
7.2.2 文件物件常用操作 119
7.2.3 上下文管理語句 121
7.3 CSV和json文件的操作方法 122
7.3.1 數據的維度 122
7.3.2 CSV文件操作 122
7.3.3 JSON文件操作 125
思考與練習 127
第8章 數據預處理和數據分析 129
8.1 了解數據 129
8.2 數據質量 130
8.2.1 完整性 131
8.2.2 一致性 131
8.2.3 準確性 132
8.2.4 及時性 132
8.3 數據預處理 132
8.3.1 數據清洗 133
8.3.2 數據集成 136
8.3.3 數據轉換 136
8.3.4 數據消減 137
8.4 特征工程 138
8.4.1 特征選擇 138
8.4.2 特征構建 139
8.5 數據分析 140
8.5.1 數據分析常用分析思維模式 140
8.5.2 數據分析的經典算法 142
思考與練習 152
第9章 使用Numpy進行數據分析 154
9.1 NumPy概述 154
9.2 NumPy Ndarray物件 154
9.3 NumPy 數據類型 156
9.4 NumPy 數組屬性 158
9.5 NumPy 創建數組 160
9.6 NumPy 從數值範圍創建數組 161
9.7 NumPy 切片和索引 162
9.8 Numpy 數組操作 164
9.8.1 修改數組形狀 164
9.8.2 數組元素的添加與刪除 166
9.9 NumPy字符串函數 171
9.10 NumPy Matplotlib 172
9.10.1 安裝 Matplotlib 172
9.10.2 圖形中文顯示 173
9.10.3 繪制正弦波。 175
9.10.4 在同一圖中繪制多張子圖 176
9.10.5 生成條形圖 176
9.10.6 頻率分布圖 177
9.10.7 將直方圖的數字表示轉換為圖形 177
思考與練習 178
第 10章 使用Pandas處理結構化數據 179
10.1 Pandas數據結構Series 179
10.1.1 Series基本概念及創建 179
10.1.2 Series的索引 180
10.1.3 Series的基本技巧 182
10.2 Pandas數據結構Dataframe 183
10.2.1 基本概念及創建 183
10.2.2 Dataframe的索引 184
10.2.3 Dataframe的基本技巧 188
10.3 Pandas時間模塊 191
10.4 Pandas時刻數據 192
10.5 Pandas時間戳索引:DatetimeIndex 193
10.6 Pandas時期:Period 196
10.7 時間序列 - 索引及切片 196
10.8 時間序列 - 重采樣 198
10.9 數值計算和統計基礎 203
10.10 文本數據 206
10.11 合並 211
10.12 連接與修補 212
10.13 去重及替換 214
10.14 數據分組 216
10.15 數據讀取 217
思考與練習 218
第 11章 使用Numpy和Pandas對數據進行預處理 219
11.1 缺失值處理 219
11.1.1 判斷是否是缺失值:isnull,notnull 219
11.1.2 刪除缺失值:dropna 220
11.1.3 填充/替換缺失數據:fillna、replace 221
11.1.4 4. 缺失值插補 223
11.2 異常值分析和處理 225
11.2.1 正態分布3σ原則 225
11.2.2 箱型圖分析 227
11.3 數據歸一化/標準化 228
11.3.1 0-1標準化 229
11.3.2 Z-score標準化 229
11.4 數據連續屬性離散化 230
11.4.1 等寬法 230
11.4.2 等頻法 232
11.5 數據預處理案例:分析各省市各年度的流感人口數據 233
11.5.1 數據介紹和任務要求 233
11.5.2 流感數據的讀取與清洗 233
11.5.3 檢查數據 236
11.5.4 人口數據的清洗與重塑 238
11.5.5 拼接數據 240
思考與練習 241
第 12章 使用Scikit-learn進行機器學習 242
12.1 常用模塊 242
12.1.1 分類方法 242
12.1.2 回歸方法 246
12.1.3 聚類方法 248
12.1.4 模型選擇 250
12.2 機器學習選擇算法的策略 250
12.3 機器學習案例——識別 Iris(鳶尾花)類別 251
12.3.1 加載數據 251
12.3.2 數據可視化 252
12.3.3 使用邏輯回歸分類器識別 253
12.3.4 可視化模型結果 254
思考與練習 255
第 13章 綜合案例 256
13.1 綜合案例1 USDA食品數據庫簡單分析食品的營養成分 256
13.1.1 數據介紹和任務要求 256
13.1.2 數據預處理和數據拼接 257
13.1.3 數據分析 260
13.2 綜合案例2 利用泰坦尼克號數據進行生還者分析 261
13.2.1 泰坦尼克號問題之背景 261
13.2.2 問題解決方法 261
13.2.3 數據分析 262
13.2.4 邏輯回歸建模 272
13.2.5 交叉驗證 275
13.2.6 學習曲線 276
13.2.7 總結 279
思考與練習 279
主題書展
更多
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

