數據挖掘原理, 4/e (Principles of Data Mining, 4/e)

Max Bramer 李曉峰 逄金輝 譯

  • 數據挖掘原理, 4/e (Principles of Data Mining, 4/e)-preview-1
  • 數據挖掘原理, 4/e (Principles of Data Mining, 4/e)-preview-2
  • 數據挖掘原理, 4/e (Principles of Data Mining, 4/e)-preview-3
數據挖掘原理, 4/e (Principles of Data Mining, 4/e)-preview-1

買這商品的人也買了...

商品描述

《數據挖掘原理(第4版)》解釋、探索了數據挖掘的主要技術,可以從數據中自動提取隱式和潛在有用的信息。數據挖掘越來越多地用於商業、科學和其他應用領域,它側重於分類、關聯規則挖掘和聚類。   書中對每個主題都進行了清晰的解釋,重點是算法而不是數學公式,並通過詳細的有效示例加以說明。本書是為沒有強數學或統計學背景的讀者寫的,並詳細解釋了使用的所有公式。   《數據挖掘原理(第4版)》適合作為本科生或研究生層次的教材,適用專業包括電腦科學、商業研究、市場營銷、人工智能、生物信息學和法醫學。   為了幫助讀者自學,本書旨在幫助普通讀者理解什麽是“黑盒”,這樣他們就可以有差別地使用商業數據挖掘包,高級讀者或學術研究者可以對未來該領域的技術進步做出貢獻。   書中每一章都有實踐練習,讓讀者檢查自己的進度。附錄還包括所使用的技術術語的完整術語表。   數據挖掘原理包括對流數據分類算法的介紹,包括平穩數據(底層模型是固定的)和依賴時間的數據(底層模型不時變化)——這種現象稱為概念漂移。   《數據挖掘原理(第4版)》提供了前饋神經網絡與反向傳播的詳細描述,並顯示它如何可以用於分類。

作者簡介

麥克斯·布拉默(Ma Bramer),樸次茅斯大學信息技術系榮休教授、國際信息處理聯合會(IFIP)副、英國計算機學會AI專家組。
自20世紀80年代以來,麥克斯教授一直積極參與“數據挖掘”領域的研究,該領域後來也被稱為“數據庫知識發現”和“大數據和預測分析”。麥克斯教授完成了多個數據挖掘項目,特別是關於數據自動分類的項目,並在技術文獻中發表了大量文章。麥克斯教授擁有多年為本科生和研究生講授“數據挖掘”這門課程的經驗。

目錄大綱

1章  數據挖掘簡介   1
1.1  數據爆炸   1
1.2  知識發現   2
1.3  數據挖掘的應用   3
1.4  標籤數據和無標籤數據   4
1.5  監督學習:分類   4
1.6  監督學習:數值預測   6
1.7  無監督學習:關聯規則   6
1.8  無監督學習:聚類   7

2章  用於挖掘的數據   9
2.1  標準制定   9
2.2  變量的類型   10
2.3  數據準備   11
2.4  缺失值   13
2.4.1  丟棄實例   14
2.4.2  用頻繁值/平均值替換   14
2.5  減少屬性個數   14
2.6  數據集的UCI存儲庫   15
2.7  本章小結   16
2.8  自我評估練習   16

3章  分類簡介:樸素貝葉斯和近鄰算法   17
3.1  什麼是分類   17
3.2  樸素貝葉斯分類器   18
3.3  近鄰分類   24
3.3.1  距離測量   26
3.3.2  標準化   28
3.3.3  處理分類屬性   29
3.4  急切式和懶惰式學習   30
3.5  本章小結   30
3.6  自我評估練習   30

4章  使用決策樹進行分類   33
4.1  決策規則和決策樹   33
4.1.1  決策樹:高爾夫示例   33
4.1.2  術語   35
4.1.3  degrees數據集   35
4.2  TDIDT算法   38
4.3  推理的類型   40
4.4  本章小結   41
4.5  自我評估練習   41

5章  決策樹歸納:使用熵進行屬性選擇   43
5.1  屬性選擇:一個實驗   43
5.2  替代決策樹   44
5.2.1  足球/無板籃球示例   44
5.2.2  匿名數據集   46
5.3  選擇要分裂的屬性:使用熵   48
5.3.1  lens24數據集   48
5.3.2  熵   49
5.3.3  使用熵進行屬性選擇   50
5.3.4  信息增益大化   52
5.4  本章小結   53
5.5  自我評估練習   53

6章  決策樹歸納:使用頻率表進行屬性選擇   55
6.1  實踐中的熵計算   55
6.1.1  等效性證明   57
6.1.2  關於零值的說明   58
6.2  其他屬性選擇標準:多樣性基尼指數   58
6.3  χ2屬性選擇準則   59
6.4  歸納偏好   62
6.5  使用增益比進行屬性選擇   63
6.5.1  分裂信息的屬性   64
6.5.2  總結   65
6.6  不同屬性選擇標準生成的規則數   65
6.7  缺失分支   66
6.8  本章小結   67
6.9  自我評估練習   67

7章  估計分類器的預測精度   69
7.1  簡介   69
7.2  方法1:將數據劃分為訓練集和集   70
7.2.1  標準誤差   70
7.2.2  重複訓練和   71
7.3  方法2:k折交驗證   72
7.4  方法3:N折交驗證   72
7.5  實驗結果I   73
7.6  實驗結果II:包含缺失值的數據集   75
7.6.1  策略1:丟棄實例   75
7.6.2  策略2:用頻繁值/平均值替換   76
7.6.3  類別缺失   77
7.7  混淆矩陣   77
7.8  本章小結   79
7.9  自我評估練習   79

8章  連續屬性   81
8.1  簡介   81
8.2  局部與全局離散化   83
8.3  向TDIDT添加局部離散化   83
8.3.1  計算一組偽屬性的信息增益   84
8.3.2  計算效率   88
8.4  使用ChiMerge算法進行全局離散化   90
8.4.1  計算期望值和χ2   92
8.4.2  查找閾值   96
8.4.3  設置minIntervals和maIntervals   97
8.4.4  ChiMerge算法:總結   98
8.4.5  對ChiMerge算法的評述   98
8.5  比較樹歸納法的全局離散化和局部離散化   99
8.6  本章小結   100
8.7  自我評估練習   100

9章  避免決策樹的過度擬合   101
9.1  處理訓練集中的衝突   101
9.2  關於過度擬合數據的更多規則   105
9.3  預剪枝決策樹   106
9.4  後剪枝決策樹   108
9.5  本章小結   113
9.6  自我評估練習   113

10章  關於熵的更多信息   115
10.1  簡介   115
10.2  使用位的編碼信息   118
10.3  區分M個值(M不是2的冪)   119
10.4  對“非等可能”的值進行編碼   121
10.5  訓練集的熵   123
10.6  信息增益必須為正數或0   124
10.7  使用信息增益簡化分類任務的特徵   125
10.7.1  示例1:genetics數據集   126
10.7.2  示例2:bcst96數據集   128
10.8  本章小結   130
10.9  自我評估練習   130

11章  歸納分類的模塊化規則   131
11.1  規則後剪枝   131
11.2  衝突解決   132
11.3  決策樹的問題   135
11.4  Prism算法   137
11.4.1  基本Prism算法的變化   143
11.4.2  將Prism算法與TDIDT算法進行比較   144
11.5  本章小結   145
11.6  自我評估練習   145

12章  度量分類器的性能   147
12.1  真假正例和真假負例   148
12.2  性能度量   149
12.3  真假正例率與預測精度   152
12.4  ROC圖   153
12.5  ROC曲線   155
12.6  尋找佳分類器   155
12.7  本章小結   157
12.8  自我評估練習   157

13章  處理大量數據   159
13.1  簡介   159
13.2  將數據分發到多個處理器   161
13.3  案例研究:PMCRI   163
13.4  評估分佈式系統PMCRI的有效性   165
13.5  逐步修改分類器   169
13.6  本章小結   173
13.7  自我評估練習   173

14章  集成分類   175
14.1  簡介   175
14.2  估計分類器的性能   177
14.3  為每個分類器選擇不同的訓練集   178
14.4  為每個分類器選擇一組不同的屬性   179
14.5  組合分類:替代投票系統   179
14.6  並行集成分類器   183
14.7  本章小結   183
14.8  自我評估練習   183

15章  比較分類器   185
15.1  簡介   185
15.2  配對t檢驗   186
15.3  為比較評估選擇數據集   191
15.4  抽樣   193
15.5  “無顯著差異”的結果有多糟糕   195
15.6  本章小結   196
15.7  自我評估練習   196

16章  關聯規則挖掘I   199
16.1  簡介   199
16.2  規則興趣度的衡量標準   200
16.2.1  Piatetsky-Shapiro標準和RI度量   202
16.2.2  規則興趣度度量應用於chess數據集   204
16.2.3  使用規則興趣度度量解決衝突   206
16.3  關聯規則挖掘任務   206
16.4  找到佳N條規則   207
16.4.1  J-Measure:度量規則的信息內容   207
16.4.2  搜索策略   209
16.5  本章小結   211
16.6  自我評估練習   211

17章  關聯規則挖掘II   213
17.1  簡介   213
17.2  事務和項目集   213
17.3  對項目集的支持   215
17.4  關聯規則   215
17.5  生成關聯規則   217
17.6  Apriori   218
17.7  生成支持的項目集:一個示例   221
17.8  為支持項目集生成規則   223
17.9  規則興趣度度量:提升度和槓桿率   224
17.10  本章小結   226
17.11  自我評估練習   227

18章  關聯規則挖掘III:頻繁模式樹   229
18.1  簡介:FP-growth   229
18.2  構造FP-tree   231
18.2.1  預處理事務數據庫   231
18.2.2  初始化   233
18.2.3  處理事務1:f, c, a, m, p   234
18.2.4  處理事務2:f, c, a, b, m   235
18.2.5  處理事務3:f, b   239
18.2.6  處理事務4:c, b, p   240
18.2.7  處理事務5:f, c, a,m, p   240
18.3  從FP-tree中查找頻繁項目集   242
18.3.1  以項目p結尾的項目集   244
18.3.2  以項目m結尾的項目集   252
18.4  本章小結   258
18.5  自我評估練習   258

19章  聚類   259
19.1  簡介   259
19.2  k-means聚類   261
19.2.1  示例   262
19.2.2  找到佳簇集   266
19.3  凝聚式層次聚類   267
19.3.1  記錄簇間距離   269
19.3.2  終止聚類過程   272
19.4  本章小結   272
19.5  自我評估練習   272

20章  文本挖掘   273
20.1  多重分類   273
20.2  表示數據挖掘的文本文檔   274
20.3  停用詞和詞幹   275
20.4  使用信息增益減少特徵   276
20.5  表示文本文檔:構建向量空間模型   276
20.6  規範權重   277
20.7  測量兩個向量之間的距離   278
20.8  度量文本分類器的性能   279
20.9  文本分類   280
20.9.1  對網頁進行分類   280
20.9.2  文本分類與文本分類   281
20.10  本章小結   284
20.11  自我評估練習   284

21章  分類流數據   285
21.1  簡介   285
21.2  構建H-Tree:更新數組   287
21.2.1  currentAtts數組   287
21.2.2  splitAtt數組   288
21.2.3  將記錄排序到適當的葉節點   288
21.2.4  hitcount數組   289
21.2.5  classtotals數組   289
21.2.6  acvCounts陣列   289
21.2.7  branch數組   290
21.3  構建H-Tree:詳細示例   291
21.3.1  步驟1:初始化根節點0   291
21.3.2  步驟2:開始讀取記錄   291
21.3.3  步驟3:考慮在節點0處分裂   292
21.3.4  步驟4:在根節點上拆分並初始化新的葉節點   293
21.3.5  步驟5:處理下一組記錄   295
21.3.6  步驟6:考慮在節點2處分裂   296
21.3.7  步驟7:處理下一組記錄   296
21.3.8  H-Tree算法概述   297
21.4  分裂屬性:使用信息增益   299
21.5  分裂屬性:使用Hoeffding邊界   301
21.6  H-Tree算法:終版本   304
21.7  使用不斷進化的H-Tree進行預測   306
21.8  實驗:H-Tree與TDIDT   308
21.8.1  lens24數據集   308
21.8.2  vote數據集   310
21.9  本章小結   311
21.10  自我評估練習   311

22章  分類流數據II:時間相關數據   313
22.1  平穩數據與時間相關數據   313
22.2  H-Tree算法總結   315
22.2.1  currentAtts數組   316