數據挖掘概念、模型、方法和算法, 3/e (Data Mining: Concepts, Models, Methods, and Algorithms, 3/e)

Mehmed Kantardzic 李曉峰 劉剛 譯

  • 數據挖掘概念、模型、方法和算法, 3/e (Data Mining: Concepts, Models, Methods, and Algorithms, 3/e)-preview-1
  • 數據挖掘概念、模型、方法和算法, 3/e (Data Mining: Concepts, Models, Methods, and Algorithms, 3/e)-preview-2
  • 數據挖掘概念、模型、方法和算法, 3/e (Data Mining: Concepts, Models, Methods, and Algorithms, 3/e)-preview-3
數據挖掘概念、模型、方法和算法, 3/e (Data Mining: Concepts, Models, Methods, and Algorithms, 3/e)-preview-1

買這商品的人也買了...

相關主題

商品描述

第3版介紹並擴展了許多主題,提供了軟件工具和數據挖掘應用程序的修訂部分;還更新了參考書目列表,供感興趣的讀者進一步研究;擴展了涉及每個章節的問題列表。展示瞭如下新信息: 探索大數據和雲計算 論述深度學習 包括捲積神經網絡(CNN)的信息提出了強化學習 包含半監督學習和S3VM回顧不平衡數據的模型評估

作者簡介

 [美]哈默德·坎塔爾季奇(Mehmed Kantardzic)博士,1980年獲得計算機科學博士學位,2004年起在路易斯維爾大學擔任教授。現任CSE(計算機科學與工程)副主席,數據挖掘實驗室主任,CSE研究生部主任。
他的研究重點是數據挖掘和知識發現、機器學習、軟計算、點擊欺詐檢測和預防、流數據中的概念漂移以及醫療數據挖掘。Kantardzic博士的榮譽很多,研究論文獲得了許多傑出和榮譽提名獎,教學方面則曾榮獲喜愛的教師和傑出教學獎。
他曾任職於多家國際期刊的編輯委員會,是美國國家科學基金會(NSF)等多個國家科學基金會的審核員和小組成員,擔任IEEEICMLA2018等多個國際會議的總主席或項目主席。

目錄大綱

第1章  數據挖掘的概念 1
1.1  概述 1
1.2  數據挖掘的起源 3
1.3  數據挖掘過程 5
1.4  從數據收集到數據預處理 8
1.5  用於數據挖掘的數據倉庫 11
1.6  從大數據到數據科學 14
1.7  數據挖掘的商業方面:為什麽數據挖掘項目會失敗 17
1.8  本書結構安排 20
1.9  復習題 22

第2章  數據準備 25
2.1  原始數據的表述 25
2.2  原始數據的特性 29
2.3  原始數據的轉換 30
2.3.1  標準化 30
2.3.2  數據平整 31
2.3.3  差值和比率 32
2.4  丟失數據 32
2.5  時間相關數據 34
2.6  異常點分析 37
2.7  復習題 43

第3章  數據歸約 47
3.1  大型數據集的維度 47
3.2  特徵歸約 49
3.2.1  特徵選擇 51
3.2.2  特徵提取 55
3.3  Relief算法 57
3.4  特徵排列的熵度量 59
3.5  主成分分析 61
3.6  值歸約 63
3.7  特徵離散化:ChiMerge技術 66
3.8  案例歸約 69
3.9  復習題 71

第4章  從數據中學習 75
4.1  學習機器 76
4.2  統計學習原理 80
4.3  學習方法的類型 84
4.4  常見的學習任務 86
4.5  支持向量機 89
4.6  半監督支持向量機(S3VM) 100
4.7  k最近鄰分類器 103
4.8  模型選擇與泛化 106
4.9  模型的評估 109
4.10  不均衡的數據分類 115
4.11  90%準確的情形 118
 4.11.1  保險欺詐檢測 118
 4.11.2  改進心臟護理 120
4.12  復習題 121

第5章  統計方法 125
5.1  統計推斷 125
5.2  評測數據集的差異 127
5.3  貝葉斯定理 130
5.4  預測回歸 132
5.5  方差分析 136
5.6  對數回歸 138
5.7  對數-線性模型 139
5.8  線性判別分析 143
5.9  復習題 144

第6章  決策樹和決策規則 149
6.1  決策樹 150
6.2  C4.5算法:生成決策樹 152
6.3  未知的屬性值 158
6.4  修剪決策樹 161
6.5  C4.5算法:生成決策規則 163
6.6  CART算法和Gini指標 165
6.7  決策樹和決策規則的局限性 168
6.8  復習題 170

第7章  人工神經網絡 175
7.1  人工神經元的模型 177
7.2  人工神經網絡的結構 179
7.3  學習過程 181
7.4  使用ANN完成的學習任務 184
7.4.1  模式聯想 184
7.4.2  模式識別 185
7.4.3  函數近似 185
7.4.4  控制 185
7.4.5  過濾 186
7.4.6  預測 186
7.5  多層感知機 187
7.6  競爭網絡和競爭學習 193
7.7  SOM 196
7.8  深度學習 201
7.9  捲積神經網絡 205
7.10  復習題 207

第8章  集成學習 211
8.1  集成學習方法論 212
8.2  多學習器組合方案 216
8.3  bagging和boosting 217
8.4  AdaBoost算法 218
8.5  復習題 220

第9章  聚類分析 223
9.1  聚類的概念 223
9.2  相似度的度量 226
9.3  凝聚層次聚類 231
9.4  分區聚類 234
9.5  增量聚類 237
9.6  DBSCAN算法 239
9.7  BIRCH算法 241
9.8  聚類驗證 244
9.9  復習題 247

第10章  關聯規則 253
10.1  購物籃分析 254
10.2  Apriori算法 255
10.3  從頻繁項集中得到關聯規則 257
10.4  提高Apriori算法的效率 258
10.5  FP增長方法 260
10.6  關聯分類方法 262
10.7  多維關聯規則挖掘 264
10.8  復習題 265

第11章  Web挖掘和文本挖掘 271
11.1  Web挖掘 271
11.2  Web內容、結構與使用挖掘 273
11.3  HITS和LOGSOM算法 275
11.4  挖掘路徑遍歷模式 280
11.5  PageRank算法 282
11.6  推薦系統 284
11.7  文本挖掘 285
11.8  潛在語義分析 289
11.9  復習題 293

第12章  數據挖掘高級技術 297
12.1  圖挖掘 297
12.2  時態數據挖掘 309
 12.2.1  時態數據表示 311
 12.2.2  序列之間的相似性度量 315
 12.2.3  時態數據模型 316
 12.2.4  挖掘序列 318
12.3  空間數據挖掘(SDM) 321
12.4  分佈式數據挖掘(DDM) 325
12.5  關聯並不意味著存在因果關系 331
12.6  數據挖掘的隱私、安全及法律問題 336
12.7  基於Hadoop和Map/Reduce的雲計算 341
12.8  強化學習 345
12.9  復習題 349

第13章  遺傳算法 353
13.1  遺傳算法的基本原理 354
13.2  用遺傳算法進行優化 355
13.2.1  編碼方案和初始化 356
13.2.2  適合度估計 357
13.2.3  選擇 357
13.2.4  交叉 358
13.2.5  突變 359
13.3  遺傳算法的簡單例證 360
13.3.1  表述 360
13.3.2  初始群體 361
13.3.3  評價 361
13.3.4  交替 362
13.3.5  遺傳算子 362
13.3.6  評價(第二次迭代) 36313.4  圖式 364
13.5  旅行推銷員問題 366
13.6  使用遺傳算法的機器學習 368
13.6.1  規則交換 371
13.6.2  規則概化 371
13.6.3  規則特化 371
13.6.4  規則分割 371
13.7  遺傳算法用於聚類 372
13.8  復習題 374

第14章  模糊集和模糊邏輯 375
14.1  模糊集 375
14.2  模糊集的運算 380
14.3  擴展原理和模糊關系 384
14.4  模糊邏輯和模糊推理系統 387
14.5  多因子評價 391
14.5.1  選擇布料的問題 391
14.5.2  教學評估的問題 392
14.6  從數據中提取模糊模型 393
14.7  數據挖掘和模糊集 397
14.8  復習題 399

第15章  可視化方法 401
15.1  感知和可視化 401
15.2  科學可視化和信息可視化 402
15.3  平行坐標 408
15.4  放射性可視化 410
15.5  使用自組織映射進行可視化 412
15.6  數據挖掘的可視化系統 413
15.7  復習題 417

附錄A  數據挖掘工具 419
A.1  數據挖掘期刊 419
A.2  數據挖掘會議 423
A.3  數據挖掘論壇/博客 426
A.4  數據集 428
A.4.1  分類 428
A.4.2  聚類 429
A.4.3  回歸 430
A.4.4  Web挖掘 430
A.4.5  文本挖掘 430
A.4.6  時間序列 431
A.4.7  關聯規則挖掘的數據 431
A.5  商業與公共可用工具 431
A.5.1  免費軟件 431
A.5.2  具有試用版本的商業軟件 433
A.5.3  沒有試用版本的商業軟件 436
A.6  Web站點鏈接 439
A.6.1  一般Web站點 439
A.6.2  關於數據挖掘的軟件工具的Web站點 439
A.6.3  數據挖掘供應商 441

附錄B  數據挖掘應用 447
B.1  財務數據分析的數據挖掘 447
B.2  電信業的數據挖掘 450
B.3  零售業的數據挖掘 452
B.4  衛生保健業和生物醫學研究中的數據挖掘 455
B.5  科學和工程中的數據挖掘 457
B.6  數據挖掘的缺陷 460