瀏覽紀錄

TOP
1/1
庫存:7
Python數據分析:活用Pandas庫(簡體書)
人民幣定價:89元
定  價:NT$534元
優惠價: 87465
可得紅利積點:13 點

庫存:7

商品簡介

作者簡介

名人/編輯推薦

目次

本書是Python數據分析入門書,每個概念都通過簡單實例來闡述,便於讀者理解與上手。具體內容包括:Python及Pandas基礎知識,加載和查看數據集,Pandas的DataFrame對象和Series對象,使用matplotlib、seaborn和Pandas提供的繪圖方法為探索性數據分析作圖,連接與合併數據集,處理缺失數據,清理數據,轉換數據類型,處理字符串,應用函數,分組操作,擬合及評估模型,正則化方法與聚類技術等。
丹尼爾·陳(Daniel Y. Chen) ,
Lander Analytics公司數據科學家,Software Carpentry和Data Carpentry的講師和課程維護人員,DataCamp的課程講師。目前他在弗尼吉亞理工大學社會與決策分析實驗室從事政策決策數據分析。
Python強大易用,是數據處理和數據分析利器,而眾多庫的加持令其如虎添翼。Pandas就是其中一個非常流行的開源庫,它可以確保數據的準確性,將數據可視化,還可以高效地操作大型數據集。借助它,Python可以快速地自動化和執行幾乎任何數據分析任務。

本書細緻講解了Pandas的基礎知識和常見用法,通過簡單的實例展示了如何使用Pandas解決複雜的現實問題,以及如何利用matplotlib、seaborn、statsmodels和sklearn等庫輔助進行Python數據分析,涵蓋了數據處理、數據可視化、數據建模等內容。此外,本書還簡單介紹了Python數據分析生態系統。

***讀者評論

“這本書比我讀過的其他介紹Pandas的書好很多,別的書也不錯,但這本書更簡明扼要。作者先介紹方法,接著給出示例,然後繼續推進,非常適合學習。”

“這本書令人耳目一新,講解沒有陷入無關緊要的細節和冗長的理論,而是直截了當地介紹如何精通Pandas(以及seaborn和其他庫),還涵蓋了數據科學的基礎(整理數據、可視化等)。”

“我讀過許多介紹Pandas的書、博客和論文,這本書格外出眾,它講解清晰,示例豐富,討論也很有層次:先整體概述,再逐漸深入······一些困擾了我很久的問題在這本書中得到了解答。”
第 1章 Pandas DataFrame基礎知識 2
1.1 簡介 2
1.2 加載數據集 3
1.3 查看列、行、單元格 5
1.3.1 取列子集 6
1.3.2 取行子集 7
1.3.3 混合 11
1.4 分組和聚合計算 16
1.4.1 分組方式 17
1.4.2 分組頻率計數 21
1.5 基本繪圖 21
1.6 小結 22
第 2章 Pandas數據結構 23
2.1 簡介 23
2.2 創建數據 24
2.2.1 創建Series 24
2.2.2 創建DataFrame 25
2.3 Series 26
2.3.1 類似於ndarray的Series 27
2.3.2 布爾子集:Series 29
2.3.3 操作自動對齊和向量化(廣播) 31
2.4 DataFrame 34
2.4.1 布爾子集:DataFrame 34
2.4.2 操作自動對齊和向量化(廣播) 35
2.5 更改Series和DataFrame 36
2.5.1 添加列 36
2.5.2 直接更改列 37
2.5.3 刪除值 39
2.6 導出和導入數據 40
2.6.1 保存數據 40
2.6.2 CSV 42
2.6.3 Excel 42
2.6.4 feather文件格式 43
2.6.5 其他數據輸出格式 43
2.7 小結 44
第3章 繪圖入門 45
3.1 簡介 45
3.2 matplotlib 46
3.3 使用matplotlib繪製統計圖 51
3.3.1 單變量 52
3.3.2 雙變量 53
3.3.3 多變量數據 54
3.4 seaborn 56
3.4.1 單變量 56
3.4.2 雙變量數據 59
3.4.3 多變量數據 67
3.5 Pandas對象 75
3.5.1 直方圖 75
3.5.2 密度圖 76
3.5.3 散點圖 77
3.5.4 蜂巢圖 77
3.5.5 箱線圖 79
3.6 seaborn主題和樣式 79
3.7 小結 81
第二部分 數據處理 83
第4章 數據組合 84
4.1 簡介 84
4.2 整理數據 84
4.3 連接 85
4.3.1 添加行 85
4.3.2 添加列 89
4.3.3 不同索引下的連接操作 90
4.4 合併多個數據集 93
4.4.1 一對一合併 94
4.4.2 多對一合併 95
4.4.3 多對多合併 95
4.5 小結 97
第5章 缺失數據 98
5.1 簡介 98
5.2 何為NaN值 98
5.3 缺失值從何而來 100
5.3.1 加載數據 100
5.3.2 合併數據 101
5.3.3 用戶輸入值 103
5.3.4 重建索引 103
5.4 處理缺失數據 105
5.4.1 查找和統計缺失數據 105
5.4.2 清理缺失數據 106
5.4.3 缺失值計算 109
5.5 小結 110
第6章 整理數據 111
6.1 簡介 111
6.2 包含值而非變量的列 112
6.2.1 固定一列 112
6.2.2 固定多列 114
6.3 包含多個變量的列 115
6.3.1 單獨拆分和添加列(簡單方法) 116
6.3.2 在單個步驟中進行拆分和組合(簡單方法) 118
6.3.3 在單個步驟中進行拆分和組合(複雜方法) 118
6.4 行與列中的變量 119
6.5 一張表中多個觀測單元(歸一化) 121
6.6 跨多張表的觀測單元 123
6.6.1 使用循環加載多個文件 125
6.6.2 使用列表推導加載多個文件 126
6.7 小結 127
第三部分 數據整理 129
第7章 數據類型 130
7.1 簡介 130
7.2 數據類型 130
7.3 類型轉換 131
7.3.1 轉換為字符串對象 131
7.3.2 轉換為數值類型 132
7.4 分類數據 136
7.4.1 轉換為category類型 137
7.4.2 操作分類數據 137
7.5 小結 138
第8章 字符串和文本數據 139
8.1 簡介 139
8.2 字符串 139
8.2.1 取子串和字符串切片 139
8.2.2 獲取字符串的最後一個字符 141
8.3 字符串方法 143
8.4 更多字符串方法 144
8.4.1 join方法 144
8.4.2 splitlines方法 144
8.5 字符串格式化 145
8.5.1 自定義字符串格式 146
8.5.2 格式化字符串 146
8.5.3 格式化數字 146
8.5.4 C printf格式化風格 147
8.5.5 Python 3.6+中的格式化字符串 148
8.6 正則表達式 148
8.6.1 匹配模式 149
8.6.2 查找模式 152
8.6.3 模式替代 152
8.6.4 編譯模式 153
8.7 regex庫 154
8.8 小結 154
第9章 應用 155
9.1 簡介 155
9.2 函數 155
9.3 使用函數 156
9.3.1 Series的apply方法 157
9.3.2 DataFrame的apply方法 158
9.4 apply高級用法 160
9.4.1 按列應用 162
9.4.2 按行應用 164
9.5 向量化函數 166
9.5.1 使用NumPy 167
9.5.2 使用numba 168
9.6 lambda函數 168
9.7 小結 170
第 10章 分組操作:分割-應用-組合 171
10.1 簡介 171
10.2 聚合 171
10.2.1 基本的單變量分組聚合 172
10.2.2 Pandas內置的聚合方法 173
10.2.3 聚合函數 174
10.2.4 同時傳入多個函數 176
10.2.5 在agg/aggregate中使用字典 177
10.3 轉換 178
10.4 過濾器 182
10.5 pandas.core.groupby.DataFrameGroupBy對象 183
10.5.1 分組 183
10.5.2 涉及多個變量的分組計算 184
10.5.3 選擇分組 184
10.5.4 遍歷分組 184
10.5.5 多個分組 186
10.5.6 平鋪結果 187
10.6 使用多重索引 188
10.7 小結 191
第 11章 datetime數據類型 192
11.1 簡介 192
11.2 Python的datatime對象 192
11.3 轉換為datetime 193
11.4 加載包含日期的數據 196
11.5 提取日期的各個部分 196
11.6 日期運算和Timedelta 198
11.7 datetime方法 200
11.8 獲取股票數據 202
11.9 基於日期取數據子集 203
11.9.1 DatetimeIndex對象 203
11.9.2 TimedeltaIndex對象 204
11.10 日期範圍 205
11.10.1 頻率 206
11.10.2 偏移量 207
11.11 移動 207
11.12 重採樣 213
11.13 時區 214
11.14 小結 215
第四部分 數據建模 217
第 12章 線性模型 218
12.1 簡介 218
12.2 簡單線性回歸 218
12.2.1 使用統計模型庫 218
12.2.2 使用sklearn庫 220
12.3 多元回歸 222
12.3.1 使用statsmodels庫 222
12.3.2 使用statsmodels和分類變量 222
12.3.3 使用sklearn庫 224
12.3.4 使用sklearn和分類變量 225
12.4 保留sklearn的索引標簽 226
12.5 小結 226
第 13章 廣義線性模型 227
13.1 簡介 227
13.2 邏輯回歸 227
13.2.1 使用statsmodels 229
13.2.2 使用sklearn 230
13.3 泊松回歸 232
13.3.1 使用statsmodels 232
3.3.2 負二項回歸 233
13.4 更多GLM 234
13.5 生存分析 235
13.6 小結 238
第 14章 模型診斷 239
14.1 簡介 239
14.2 殘差 239
14.3 比較多個模型 243
14.3.1 比較線性模型 243
14.3.2 比較GLM 246
14.4 k折交叉驗證 248
14.5 小結 251
第 15章 正則化 252
15.1 簡介 252
15.2 何為正則化 252
15.3 LASSO回歸 254
15.4 嶺回歸 255
15.5 彈性網 256
15.6 交叉驗證 258
15.7 小結 260
第 16章 聚類 261
16.1 簡介 261
16.2 k均值聚類 261
16.3 層次聚類 267
16.3.1 最長距離法 267
16.3.2 最短距離法 267
16.3.3 平均距離法 268
16.3.4 重心法 268
16.3.5 手動設置閾值 269
16.4 小結 270
第五部分 終章 271
第 17章 Pandas之外 272
17.1 科學計算棧 272
17.2 性能 272
17.2.1 測試代碼運行時間 272
17.2.2 分析代碼 274
17.3 規模更大、速度更快 274
第 18章 寫給自學者 275
18.1 不可閉門造車 275
18.2 本地聚會 275
18.3 參加會議 275
18.4 互聯網 276
18.5 播客 276
18.6 小結 276
第六部分 附錄
附錄A 安裝 278
附錄B 命令行 280
附錄C 項目模板 282
附錄D Python代碼編寫工具 283
附錄E 工作目錄 285
附錄F 環境 287
附錄G 安裝包 289
附錄H 導入庫 291
附錄I 列表 293
附錄J 元組 294
附錄K 字典 295
附錄L 切片 297
附錄M 循環 299
附錄N 推導式 300
附錄O 函數 301
附錄P 範圍和生成器 305
附錄Q 多重賦值 307
附錄R NumPy ndarray 309
附錄S 類 311
附錄T 變形器odo 313
版權聲明 314

購物須知

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約20個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。