數據挖掘:原理與實踐(基礎篇) Data Mining: The Textbook

Charu C. Aggarwal 王曉陽,王建勇,禹曉輝,陳世敏譯

買這商品的人也買了...

商品描述

本書中文版分為基礎篇和進階篇,深入探討了數據挖掘的各個方面,
從基礎知識到復雜的數據類型及其應用,捕捉了數據挖掘的各種問題領域。
它不僅關註傳統的數據挖掘問題,還引入了高級數據類型,例如文本、時間序列、離散序列、空間數據、圖數據和社交網絡數據。
到目前為止,還沒有一本書以如此全面和綜合的方式探討所有這些主題。
本書是基礎篇,詳細介紹了針對數據挖掘的四個主要問題(聚類、分類、關聯模式挖掘和異常分析)的各種解決方法、
用於文本數據領域的特定挖掘方法,以及對於數據流的挖掘應用。
本書在直觀解釋和數學細節上取得了很好的平衡,既包含研究人員需要的數學公式,
又以簡單易懂的方式呈現出來,方便學生和從業人員(包括數學背景有限的人)閱讀。
本書包括大量插圖、示例和練習,並把重點放在語義可解釋的示例上,特別適合作為入門級數據挖掘課程的教材。

作者簡介

Charu C. Aggarwal

 是IBM T. J. Watson研究中心的傑出研究人員,於1996年獲麻省理工學院博士學位。
他對數據挖掘領域有著廣泛的研究,在國際會議和期刊上發表了250多篇論文,擁有80多項專利。
他曾三次被評為IBM的“傑出發明人”,並曾獲得IBM公司獎、IBM傑出創新獎和兩項IBM傑出技術成就獎。
他因為提出基於冷凝的數據挖掘中的隱私保護技術而獲得EDBT2014的時間檢驗獎。
他還獲得了IEEE ICDM研究貢獻獎(2015),這是數據挖掘領域對具有突出貢獻的研究的兩個*高獎項之一。 .
他曾多次擔任ACM/IEEE知名國際學術會議的主席或程序委員會主席,並擔任大數據相關多個知名期刊的主編或編委。
由於在知識發現和數據挖掘算法上的貢獻,他入選SIAM、ACM和IEEE的會士。

目錄大綱

出版者的話
譯者序
前言
第1章 數據挖掘導論1
1.1 引言1
1.2 數據挖掘過程2
1.2.1 數據預處理階段4
1.2.2 分析階段5
1.3 基本數據類型5
1.3.1 非依賴型數據5
1.3.2 依賴型數據7
1.4 主要數據挖掘模塊總覽11
1.4.1 關聯模式挖掘12
1.4.2 數據聚類13
1.4.3 異常檢測13
1.4.4 數據分類14
1.4.5 復雜數據類型對問題定義的影響15
1.5 可擴展性問題和數據流場景17
1.6 應用案例淺述17
1.6.1 商店商品佈局17
1.6.2 客戶推薦18
1.6.3 醫療診斷18
1.6.4 Web日誌異常檢測19
1.7 小結19
1.8 文獻註釋19
1.9 練習題20

第2章 數據準備21
2.1 引言21
2.2 特徵提取和類型轉換22
2.2.1 特徵提取22
2.2.2 數據類型轉換23
2.3 數據清洗26
2.3.1 缺失項的處理27
2.3.2 錯誤項和不一致項的處理28
2.3.3 縮放與標準化29
2.4 數據約簡和轉換29
2.4.1 採樣30
2.4.2 特徵子集選取32
2.4.3 基於坐標軸旋轉的維度約簡32
2.4.4 基於類型轉換的降維39
2.5 小結47
2.6 文獻註釋48
2.7 練習題48

第3章 相似度和距離50
3.1 引言50
3.2 多維數據50
3.2.1 定量型數據51
3.2.2 類別型數據58
3.2.3 定量型和類別型的混合數據59
3.3 文本相似性度量60
3.4 時態的相似性度量61
3.4.1 時間序列相似性度量61
3.4.2 離散序列相似性度量65
3.5 圖的相似性度量67
3.5.1 單個圖中兩個節點之間的相似度67
3.5.2 兩個圖之間的相似度68
3.6 有監督的相似度函數69
3.7 小結70
3.8 文獻註釋70
3.9 練習題71

第4章 關聯模式挖掘73
4.1 引言73
4.2 頻繁模式挖掘模型74
4.3 關聯規則的生成框架76
4.4 頻繁項集挖掘算法77
4.4.1 暴力算法78
4.4.2 Apriori算法78
4.4.3 枚舉樹算法81
4.4.4 遞歸的基於後綴的模式生長方法89
4.5 替代模型:有趣模式96
4.5.1 統計相關系數97
4.5.2 χ2度量97
4.5.3 興趣比率98
4.5.4 對稱置信度98
4.5.5 列的餘弦系數98
4.5.6 Jaccard系數和min-hash技巧98
4.5.7 集體強度100
4.5.8 與負模式挖掘的關系100
4.6 有用的元算法100
4.6.1 採樣方法101
4.6.2 數據劃分集成法101
4.6.3 推廣到其他數據類型101
4.7 小結102
4.8 文獻註釋102
4.9 練習題104

第5章 關聯模式挖掘:高級概念106
5.1 引言106
5.2 模式匯總106
5.2.1 最大模式107
5.2.2 閉包模式108
5.2.3 近似頻繁模式109
5.3 模式查詢110
5.3.1 一次預處理多次查詢111
5.3.2 把限制條件放入模式挖掘115
5.4 關聯模式挖掘的應用115
5.4.1 與其他數據挖掘問題的關系115
5.4.2 購物籃分析116
5.4.3 用戶信息分析116
5.4.4 推薦和協同過濾116
5.4.5 Web日誌分析117
5.4.6 生物信息學117
5.4.7 應用於其他復雜數據類型117
5.5 小結118
5.6 文獻註釋118
5.7 練習題119

第6章 聚類分析120
6.1 引言120
6.2 聚類的特徵選取121
6.2.1 過濾模型121
6.2.2 包裝模型124
6.3 基於代表點的算法124
6.3.1 k-means算法127
6.3.2 k-means內核算法128
6.3.3 k-medians算法128
6.3.4 k-medoids算法129
6.4 層次聚類算法130
6.4.1 自底向上凝聚的方法131
6.4.2 自頂向下分裂的方法135
6.5 基於概率模型的算法135
6.6 基於網格和基於密度的算法139
6.6.1 基於網格的算法139
6.6.2 DBSCAN141
6.6.3 DENCLUE143
6.7 基於圖的算法147
6.8 非負矩陣分解149
6.9 聚類驗證153
6.9.1 內部驗證度量153
6.9.2 外部驗證度量155
6.9.3 評價158
6.10 小結158
6.11 文獻註釋158
6.12 練習題159

第7章 聚類分析:高級概念161
7.1 引言161
7.2 類別型數據的聚類162
7.2.1 基於代表點的算法162
7.2.2 層次算法164
7.2.3 概率算法165
7.2.4 基於圖的算法166
7.3 可擴展的數據聚類167
7.3.1 CLARANS167
7.3.2 BIRCH168
7.3.3 CURE169
7.4 高維數據聚類170
7.4.1 CLIQUE172
7.4.2 PROCLUS172
7.4.3 ORCLUS174
7.5 半監督聚類176
7.5.1 單點監督177
7.5.2 成對監督177
7.6 用戶監督聚類與可視化監督聚類178
7.6.1 現有聚類算法的變體178
7.6.2 可視化聚類179
7.7 集成聚類181
7.7.1 選擇不同的集成組件181
7.7.2 組合不同的集成組件182
7.8 聚類應用183
7.8.1 應用到其他數據挖掘問題183
7.8.2 客戶分類與協同過濾183
7.8.3 文本應用184
7.8.4 多媒體應用184
7.8.5 時態與序列應用184
7.8.6 社交網絡分析184
7.9 小結184
7.10 文獻註釋184
7.11 練習題185

第8章 異常分析186
8.1 引言186
8.2 極值分析187
8.2.1 單變量極值分析188
8.2.2 多變量極值190
8.2.3 基於深度的方法191
8.3 概率模型192
8.4 異常檢測的聚類方法193
8.5 基於距離的異常檢測195
8.5.1 剪枝方法195
8.5.2 局部距離修正方法197
8.6 基於密度的方法200
8.6.1 基於統計直方圖和網格的技術200
8.6.2 核密度估計201
8.7 信息論模型201
8.8 異常點正確性203
8.8.1 方法論上的挑戰203
8.8.2 接收者工作特徵(ROC)曲線203
8.8.3 常見錯誤205
8.9 小結205
8.10 文獻註釋205
8.11 練習題206

第9章 異常分析:高級概念208
9.1 引言208
9.2 類別型數據上的異常檢測208
9.2.1 概率模型209
9.2.2 聚類和基於距離的方法210
9.2.3 二元和集合取值的數據210
9.3 高維異常檢測210
9.3.1 基於網格的罕見子空間探索212
9.3.2 隨機子空間採樣214
9.4 異常點集成分析215
9.4.1 根據成員獨立性的分類216
9.4.2 根據構成成員的分類217
9.4.3 歸一化與合並218
9.5 異常分析的應用219
9.5.1 質量控制和故障檢測219
9.5.2 金融詐騙和異常事件219
9.5.3 網站日誌分析219
9.5.4 入侵檢測應用219
9.5.5 生物學和醫學應用220
9.5.6 地球科學應用220
9.6 小結220
9.7 文獻註釋220
9.8 練習題221

第10章 數據分類222
10.1 引言222
10.2 分類的特徵選擇224
10.2.1 過濾模型224
10.2.2 包裝模型227
10.2.3 嵌入式模型228
10.3 決策樹228
10.3.1 劃分準則231
10.3.2 停止準則與剪枝232
10.4 基於規則的分類器233
10.4.1 決策樹規則生成234
10.4.2 順序覆蓋算法235
10.4.3 規則剪枝238
10.4.4 關聯分類器238
10.5 概率分類器239
10.5.1 樸素貝葉斯分類器239
10.5.2 邏輯回歸242
10.6 SVM245
10.6.1 線性可分數據的SVM245
10.6.2 不可分數據的SVM軟間隔實現250
10.6.3 非線性SVM252
10.6.4 內核技巧253
10.7 神經網絡256
10.7.1 單層神經網絡:感知器257
10.7.2 多層神經網絡258
10.7.3 不同線性模型的比較260
10.8 基於實例的學習261
10.8.1 最近鄰分類器的設計差異261
10.9 分類器評估263
10.9.1 方法論問題263
10.9.2 量化問題265
10.10 小結269
10.11 文獻註釋269
10.12 練習題270

第11章 數據分類:高級概念272
11.1 引言272
11.2 多類別學習273
11.3 稀有類別學習274
11.3.1 樣例重加權275
11.3.2 樣例重採樣275
11.4 可擴展分類276
11.4.1 可擴展的決策樹276
11.4.2 可擴展的SVM277
11.5 數值型類別的回歸模型278
11.5.1 線性回歸278
11.5.2 主成分回歸281
11.5.3 廣義線性模型282
11.5.4 非線性和多項式回歸283
11.5.5 由決策樹至回歸樹284
11.5.6 模型有效性評估285
11.6 半監督學習285
11.6.1 通用元算法287
11.6.2 分類算法的具體變種288
11.6.3 基於圖的半監督學習290
11.6.4 對半監督學習的討論291
11.7 主動學習291
11.7.1 基於異構性的模型293
11.7.2 基於性能的模型294
11.7.3 基於代表性的模型295
11.8 集成方法296
11.8.1 為什麽集成分析有效297
11.8.2 偏差-方差折中的正式表述299
11.8.3 集成學習的具體實例化301
11.9 小結305
11.10 文獻註釋305
11.11 練習題306

第12章 數據流挖掘308
12.1 引言308
12.2 流中的概要數據結構309
12.2.1 蓄水池採樣309
12.2.2 海量域場景的概述結構315
12.3 數據流中的頻繁模式挖掘325
12.3.1 利用概要結構325
12.3.2 有損計數算法325
12.4 數據流聚類326
12.4.1 STREAM算法326
12.4.2 CluStream算法328
12.4.3 海量域場景的流聚類331
12.5 流的異常檢測332
12.5.1 單個數據點作為異常點332
12.5.2 聚集變化點作為異常點333
12.6 流分類335
12.6.1 VFDT家族335
12.6.2 有監督的微簇方法337
12.6.3 集成方法337
12.6.4 海量域流的分類337
12.7 小結338
12.8 文獻註釋338
12.9 練習題338

第13章 文本數據挖掘340
13.1 引言340
13.2 文檔準備和相似度計算341
13.2.1 文檔歸一化和相似度計算342
13.2.2 專用於Web文檔的預處理343
13.3 專用於文本的聚類方法344
13.3.1 基於代表點的算法344
13.3.2 概率算法346
13.3.3 同步發現文檔簇和詞簇347
13.4 主題建模349
13.4.1 維度約簡中的使用以及與潛在語義分析的對比351
13.4.2 聚類中的使用以及與概率聚類的對比353
13.4.3 PLSA的局限性354
13.5 專用於文本的分類方法354
13.5.1 基於實例的分類器354
13.5.2 貝葉斯分類器356
13.5.3 高維稀疏數據的SVM分類器358
13.6 新事物和首發故事檢測360
13.7 小結360
13.8 文獻註釋361
13.9 練習題361
參考文獻362