數據挖掘與機器學習
徐雪琪、徐藹婷
- 出版商: 清華大學
- 出版日期: 2025-08-01
- 售價: $414
- 語言: 簡體中文
- ISBN: 7302696586
- ISBN-13: 9787302696582
-
相關分類:
Data-mining、Machine Learning
下單後立即進貨 (約4週~6週)
相關主題
商品描述
作者簡介
目錄大綱
目 錄
第1章 概述 1
1.1 數據挖掘的產生與發展 2
1.1.1 數據挖掘概念的提出 2
1.1.2 數據挖掘的發展歷程 3
1.1.3 當前熱點與未來趨勢 6
1.2 數據挖掘過程 9
1.2.1 Fayyad過程模型 9
1.2.2 CRISP-DM過程模型 10
1.3 數據挖掘功能與使用技術 20
1.3.1 數據挖掘功能 20
1.3.2 數據挖掘使用技術 21
1.4 數據挖掘的核心利器:機器學習 22
1.4.1 機器學習分類 22
1.4.2 機器學習與數據挖掘的關系 23
1.5 數據挖掘應用 24
1.5.1 金融領域的數據挖掘 24
1.5.2 電信領域的數據挖掘 25
1.5.3 零售與電子商務領域的數據挖掘 25
1.5.4 政府政務領域的數據挖掘 26
1.5.5 醫療領域的數據挖掘 26
1.5.6 科學領域的數據挖掘 26
1.6 練習與拓展 27
第2章 數據與數據平臺 28
2.1 數據類型 29
2.1.1 數據形態與數據類型 29
2.1.2 數據環境與數據類型 38
2.2 關系型數據庫 39
2.2.1 關系型數據庫概述 39
2.2.2 關系型數據庫管理系統 40
2.3 傳統數據倉庫 41
2.3.1 概念與特點 41
2.3.2 數據集市 43
2.3.3 元數據與數據粒度 44
2.3.4 邏輯模型 44
2.4 NoSQL數據庫 47
2.4.1 鍵值數據庫 47
2.4.2 文檔數據庫 48
2.4.3 列族數據庫 50
2.4.4 圖數據庫 52
2.5 大數據平臺 53
2.5.1 數據采集層 54
2.5.2 數據存儲層 57
2.5.3 數據處理與分析層 59
2.6 練習與拓展 62
第3章 數據預處理與特征工程 64
3.1 數據預處理與特征工程概述 65
3.1.1 原始數據中存在的問題 65
3.1.2 數據預處理與特征工程的主要任務 67
3.2 數據清洗 68
3.2.1 缺失數據處理 68
3.2.2 異常數據處理 70
3.3 數據集成與平衡 71
3.3.1 數據集成 71
3.3.2 數據平衡 73
3.4 特征構造與變換 74
3.4.1 特征構造 74
3.4.2 特征變換 78
3.5 數據歸約 80
3.5.1 屬性的歸約 80
3.5.2 記錄的歸約 82
3.5.3 數值的歸約 83
3.6 練習與拓展 84
第4章 關聯分析 85
4.1 關聯分析概述 86
4.1.1 關聯分析的基本概念 86
4.1.2 強關聯規則產生的基本過程 88
4.2 Apriori算法 90
4.2.1 Apriori性質 90
4.2.2 Apriori算法過程描述 91
4.2.3 Apriori算法產生頻繁項集示例 92
4.3 關聯規則的評價:提升度 95
4.3.1 強關聯規則不一定是有趣的規則 95
4.3.2 基於提升度評價強關聯規則 96
4.3.3 基於提升度的強關聯規則提取 97
4.4 R實踐案例:購物籃分析 99
4.4.1 產生稀疏矩陣 100
4.4.2 了解數據概況 100
4.4.3 可視化數據 101
4.4.4 挖掘關聯規則 105
4.4.5 可視化關聯規則 107
4.5 Python實踐案例:影片推薦 112
4.5.1 數據集初探 112
4.5.2 變量探索 113
4.5.3 影片詞雲分析 115
4.5.4 數據預處理 116
4.5.5 關聯規則挖掘 117
4.5.6 為用戶推薦影片 118
4.6 練習與拓展 119
第5章 決策樹 120
5.1 決策樹概述 121
5.1.1 決策樹分析的基本概念 121
5.1.2 決策樹構建的基本過程 123
5.2 ID3算法 124
5.2.1 信息論的基本概念 124
5.2.2 ID3算法基本原理 125
5.2.3 使用ID3算法建立決策樹 126
5.3 C5.0算法 129
5.3.1 C5.0算法決策樹生長 129
5.3.2 C5.0算法決策樹修剪 134
5.4 CART算法 136
5.4.1 CART分類樹生長 136
5.4.2 CART回歸樹生長 141
5.4.3 CART剪枝 143
5.5 R實踐案例:客戶信用風險預測 144
5.5.1 數據探索 144
5.5.2 數據分區 153
5.5.3 模型訓練與評估 153
5.5.4 使用代價矩陣調整模型 156
5.6 Python實踐案例:糖尿病預測 157
5.6.1 數據讀取與類型轉換 157
5.6.2 數據探索 158
5.6.3 數據預處理 163
5.6.4 模型訓練與評估 164
5.7 練習與拓展 166
第6章 集成學習 167
6.1 集成學習概述 168
6.1.1 集成學習的基本概念 168
6.1.2 集成學習的主要類型 169
6.2 隨機森林 171
6.2.1 隨機森林的構建過程 171
6.2.2 隨機森林的OOB估計 172
6.2.3 隨機森林中的特征重要性 172
6.3 AdaBoost 173
6.3.1 AdaBoost二分類算法 174
6.3.2 AdaBoost二分類問題示例 175
6.3.3 AdaBoost的正則化 178
6.4 Gradient Boosting之GBDT 178
6.4.1 Gradient Boosting基本思想 179
6.4.2 GBDT算法 180
6.4.3 GBDT回歸問題示例 181
6.5 R實踐案例:藥物預測 186
6.5.1 數據讀取與類型轉換 186
6.5.2 探索性分析 187
6.5.3 隨機森林模型構建與評估 191
6.6 Python實踐案例:銀行客戶類別預測 195
6.6.1 數據讀取與預處理 196
6.6.2 探索性分析 199
6.6.3 模型構建與評估 200
6.7 練習與拓展 205
第7章 貝葉斯分類 206
7.1 貝葉斯分類概述 207
7.1.1 貝葉斯定理 207
7.1.2 貝葉斯網絡 207
7.1.3 貝葉斯分類的基本過程 208
7.2 樸素貝葉斯分類 209
7.2.1 樸素貝葉斯分類原理 209
7.2.2 樸素貝葉斯分類示例 212
7.3 零概率問題:拉普拉斯平滑 214
7.3.1 拉普拉斯平滑法 214
7.3.2 拉普拉斯平滑法示例 215
7.4 TAN貝葉斯分類 216
7.4.1 TAN貝葉斯網絡結構 216
7.4.2 TAN貝葉斯分類過程 216
7.5 R實踐案例:蘑菇分類 218
7.5.1 數據讀取與預處理 219
7.5.2 探索性分析 220
7.5.3 模型構建與評估 223
7.6 Python實踐案例:垃圾短信預測 225
7.6.1 數據集初探 225
7.6.2 文本預處理 226
7.6.3 詞雲分析 227
7.6.4 建立文檔—詞條矩陣 229
7.6.5 樸素貝葉斯分類模型構建與評估 230
7.7 練習與拓展 233
第8章 神經網絡與深度學習 234
8.1 神經網絡與深度學習概述 235
8.1.1 生物神經元與人工神經元 235
8.1.2 激活函數 236
8.1.3 神經網絡的拓撲結構 239
8.2 BP神經網絡 241
8.2.1 BP神經網絡的學習過程 241
8.2.2 BP算法描述 246
8.2.3 BP算法示例 247
8.2.4 常用的梯度下降法 249
8.3 卷積神經網絡 250
8.3.1 卷積層 251
8.3.2 激活層 254
8.3.3 池化層 254
8.3.4 全連接層 255
8.4 R實踐案例:白葡萄酒品質預測 256
8.4.1 數據探索 257
8.4.2 數據轉換與分區 260
8.4.3 模型構建與評價 260
8.5 Python實踐案例:服飾圖片識別 265
8.5.1 Fashion-MNIST數據集加載及概況分析 265
8.5.2 預處理與可視化 266
8.5.3 CNN模型構建與編譯 268
8.5.4 模型訓練與評估 269
8.5.5 可視化卷積層特征圖 271
8.6 練習與拓展 274
參考文獻 276