TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
數據處理與知識發現(簡體書)
滿額折

數據處理與知識發現(簡體書)

人民幣定價:45 元
定  價:NT$ 270 元
優惠價:87235
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:7 點
相關商品
商品簡介
目次

商品簡介

本書系統地介紹了數據預處理、數據倉庫和數據挖掘的原理、方法及應用技術, 以及採用Mahout 對相應的挖掘算法進行實際練習。本書共有11 章, 分為兩大部分。第1 ~7 章為理論部分。第1 章為緒論, 介紹了數據挖掘與知識發現領域中的一些基本理論、研究方法等, 也簡單介紹了Hadoop 生態系統中的Mahout; 第2 ~7 章按知識發現的過程, 介紹數據預處理的方法和技術、數據倉庫的構建與OLAP 技術、數據挖掘原理及算法(包括關聯規則挖掘、聚類分析方法、分類規則挖掘)、常見的數據挖掘工具與產品。第8 ~11 章為實驗部分, 採用Mahout 對數據挖掘各類算法進行實際練習。
本書應用性較強, 與實踐相結合, 以小數據集為例詳細介紹各種挖掘算法, 使讀者更易掌握挖掘算法的基本原理及過程; 使用廣泛的大數據平臺―――Hadoop 生態系統中的Mahout 對各種挖掘算法進行實際練習, 實戰性強, 也符合目前數據處理與挖掘的發展趨勢。
本書既便于教師課堂講授, 又便於自學者閱讀, 可作為高等院校高年級學生“數據挖掘技術” “數據倉庫與數據挖掘” “數據處理與智能決策”等課程的教材。

目次

目錄
前 言
上篇 理論部分
第1 章 緒論 2
1. 1 KDD 與數據挖掘 2
1. 1. 1 KDD 的定義 2
1. 1. 2 KDD 過程與數據挖掘 3
1. 2 數據挖掘的對象 4
1. 3 數據挖掘的任務 8
1. 4 Mahout 簡介 12
1. 4. 1 Mahout 12
1. 4. 2 Mahout 算法庫 13
1. 4. 3 Mahout 應用 16
1. 5 小結 17
1. 6 習題 17
第2 章 數據預處理 18
2. 1 數據概述 18
2. 1. 1 屬性與度量 19
2. 1. 2 數據集的類型 23
2. 2 數據預處理 27
2. 2. 1 數據預處理概述 28
2. 2. 2 數據清理 30
2. 2. 3 數據集成 34
2. 2. 4 數據變換 38
2. 2. 5 數據歸約 40
2. 2. 6 離散化與概念分層 48
2. 3 小結 52
2. 4 習題 53
第3 章 數據倉庫 55
3. 1 數據倉庫概述 55
3. 1. 1 從數據庫到數據倉庫 55
3. 1. 2 數據倉庫 56
3. 1. 3 數據倉庫系統結構 59
3. 1. 4 數據倉庫中的名詞 59
3. 2 數據倉庫的ETL 60
3. 2. 1 ETL 的基本概念 60
3. 2. 2 ETL 的工具 60
3. 3 元數據與外部數據 62
3. 3. 1 元數據的定義 62
3. 3. 2 元數據的存儲與管理 63
3. 3. 3 外部數據 64
3. 4 數據倉庫模型及數據倉庫的建立 65
3. 4. 1 多維數據模型 65
3. 4. 2 多維數據模型的建立 67
3. 5 連線分析處理OLAP 技術 73
3. 5. 1 OLAP 概述 73
3. 5. 2 OLAP 與數據倉庫 75
3. 5. 3 OLAP 的模型 77
3. 5. 4 OLAP 的基本操作 79
3. 6 數據倉庫實例 80
3. 6. 1 數據倉庫的創建 81
3. 6. 2 數據的提取、轉換和加載 83
3. 7 小結 83
3. 8 習題 83
第4 章 關聯規則挖掘 84
4. 1 問題定義 85
4. 1. 1 購物籃分析 85
4. 1. 2 基本術語 85
4. 2 頻繁項集的產生 87
4. 2. 1 先驗原理 88
4. 2. 2 Apriori 算法的頻繁項集產生 90
4. 3 規則產生 94
4. 3. 1 基於置信度的剪枝 94
4. 3. 2 Apriori 算法中規則的產生 94
4. 4 FP-growth 算法 95
4. 5 多層關聯規則和多維關聯規則 99
4. 5. 1 多層關聯規則 99
4. 5. 2 多維關聯規則 102
4. 6 非二元屬性的關聯規則 103
4. 7 關聯規則的評估 104
4. 8 序列模式挖掘算法 106
4. 8. 1 序列模式的概念 106
4. 8. 2 Apriori 類算法―――AprioriAll
算法 109
4. 9 小結 114
4. 10 習題 115
第5 章 聚類分析方法 118
5. 1 聚類分析概述 118
5. 1. 1 聚類的定義 118
5. 1. 2 聚類算法的要求 119
5. 1. 3 聚類算法的分類 120
5. 1. 4 相似性的測度 121
5. 2 基於劃分的聚類算法 126
5. 2. 1 基於質心的(Centroid-based)
劃分方法―――基本K-means
聚類算法 126
5. 2. 2 K-means 聚類算法的拓展 128
5. 2. 3 基於中心的(Medoid-based)
劃分方法―――PAM 算法 130
5. 3 層次聚類算法 133
5. 3. 1 AGNES 算法 136
5. 3. 3 改進算法―――BIRCH 算法 137
5. 3. 4 改進算法―――CURE 算法 141
5. 4 基於密度的聚類算法 143
5. 5 聚類算法評價 147
5. 6 離群點挖掘 149
5. 6. 1 相關問題概述 149
5. 6. 2 基於距離的方法 150
5. 6. 3 基於相對密度的方法 154
5. 7 小結 158
5. 8 習題 158
第6 章 分類規則挖掘 160
6. 1 分類問題概述 160
6. 2 最近鄰分類法 162
6. 2. 1 KNN 算法原理 162
6. 2. 2 KNN 算法的特點及改進 165
6. 2. 3 基於應用平臺的KNN 算法應用
實例 166
6. 3 決策樹分類方法 167
6. 3. 1 決策樹概述 167
6. 3. 2 信息論 171
6. 3. 3 ID3 算法 172
6. 3. 4 算法改進: C4. 5 算法 176
6. 4 貝葉斯分類方法 180
6. 4. 1 貝葉斯定理 181
6. 4. 2 樸素貝葉斯分類器 183
6. 4. 3 樸素貝葉斯分類方法的改進 185
6. 5 神經網絡算法 188
6. 5. 1 前饋神經網絡概述 188
6. 5. 2 學習前饋神經網絡 189
6. 5. 3 BP 神經網絡模型與學習算法 191
6. 6 回歸分析 193
6. 7 小結 196
6. 8 習題 197
第7 章 數據挖掘工具與產品 198
7. 1 評價數據挖掘產品的標準 198
7. 2 數據挖掘工具簡介 200
7. 3 數據挖掘的可視化 203
7. 3. 1 數據挖掘可視化的過程與方法 203
7. 3. 2 數據挖掘可視化的分類 204
7. 3. 3 數據挖掘可視化的工具 206
7. 4 Weka 207
7. 4. 1 Weka Explorer 208
7. 4. 2 Weka Experimenter 216
7. 4. 3 KnowledgeFlow 219
7. 5 小結 221
7. 6 習題 221
下篇 實驗部分
第8 章 Mahout 入門 224
8. 1 Mahout 安裝前的準備 224
8. 1. 1 安裝JDK 224
8. 1. 2 安裝Hadoop 227
8. 2 Mahout 的安裝 237
8. 3 測試安裝 238
8. 4 小結 239
第9 章 使用Mahout 實踐關聯規則
算法 240
9. 1 FP 樹關聯規則算法 240
9. 1. 1 Mahout 中Parallel Frequent Pattern
Mining 算法的實現原理 240
9. 1. 2 Mahout 的Parallel F

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 235
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區