數據科學概念與實踐(原書第2版) Predictive Analytics and Data Mining: Concepts and Practice

Vijay Kotu,Bala Deshpande 黃智瀕,白鵬譯

買這商品的人也買了...

商品描述

數據科學已經成為從數據中提取價值的基本工具,
任何企業都可以將數據收集、存儲和處理作為其業務的一部分。
本書搭建了一個易於理解的概念框架,幫助讀者掌握數據科學的基礎知識,
並在學習理論的過程中同步使用RapidMiner平台進行實踐。
書中將分享實用的數據分析方法,討論如何揭示隱藏的模式和關係,
無論你是新手還是專家,都能藉助這些方法做出更好的決策和預測。
本書很好適合商務用戶、數據分析師、商務分析師、工程師和分析專家以及任何與數據打交道的人。

作者簡介

黃智瀕

北京郵電大學計算機學院講師,計算機體系結構博士,主講數字邏輯和計算機體系結構課程。
主要研究方向包括GPU加速及大規模並行計算等。

目錄大綱

讚譽
譯者序
序言
前言
致謝
作者簡介
章簡介1
1.1AI、機器學習和數據科學2
1.2什麼是數據科學3
1.2.1提取有意義的模式3
1.2.2構建表示模型3
1.2.3統計、機器學習和計算的結合4
1.2.4學習算法4
1.2.5相關領域4
1.3數據科學的案例5
1.3.1體量5
1.3.2維度5
1.3.3複雜問題6
1.4數據科學的分類6
1.5數據科學的算法7
1.6本書路線圖8
1.6.1數據科學入門8
1.6.2練習使用RapidMiner8
1.6.3核心算法9
參考文獻11

第2章數據科學過程12
2.1先驗知識13
2.1.1目標13
2.1. 2主題範圍14
2.1.3數據14
2.1.4因果關係與相關性15
2.2數據準備15
2.2.1數據探索15
2.2.2數據質量16
2.2.3缺失值16
2.2.4數據類型和轉換16
2.2.5轉換17
2.2.6異常值17
2.2.7特徵選擇17
2.2.8數據採樣17
2.3建模18
2.3.1訓練數據集和測試數據集18
2.3.2學習算法19
2.3.3模型評估20
2.3.4集成模型20
2.4應用21
2.4.1生產準備21
2.4.2技術整合21
2.4.3響應時間21
2.4.4模型刷新22
2.4.5同化22
2.5知識22
參考文獻23

第3章數據探索24
3.1數據探索的目標24
3.2數據集25
3.3描述性統計26
3.3.1單變量探索27
3.3.2多變量探索28
3.4數據可視化30
3.4.1單變量的可視化31
3.4 .2多變量的可視化34
3.4.3可視化高維數據38
3.5數據探索的路線圖40
參考文獻41

第4章分類42
4.1決策樹42
4.1.1工作原理42
4.1.2實現過程47
4.1.3小結55
4.2規則歸納56
4.2.1工作原理58
4.2.2實現過程60
4.2.3小結63
4.3k-NN(k-近鄰)63
4.3.1工作原理
4.3.2實現過程69
4.3.3小結71
4.4樸素貝葉斯71
4.4.1工作原理72
4.4.2實現過程77
4.4.3小結79
4.5人工神經網絡80
4.5.1工作原理82
4.5.2實現過程84
4.5.3小結86
4.6支持向量機87
4.6.1工作原理89
4.6.2實現過程91
4.6.3小結95
4.7集成學習95
4.7.1工作原理97
4.7.2實現過程98
4.7.3小結105
參考文獻105

第5章回歸方法107
5.1線性回歸107
5.1. 1工作原理108
5.1.2實現過程112
5.1.3檢查點117
5.2邏輯回歸120
5.2.1工作原理122
5.2.2實現過程124
5.2.3總結要點127
5.3總結127
參考文獻127

第6章關聯分析128
6.1挖掘關聯規則129
6.1.1項集130
6.1.2規則生成132
6.2Apriori算法133
6.3頻繁模式增長算法136
6.3.1工作原理136
6.3.2實現過程138
6.4總結141
參考文獻141

第7章聚類142
7.1k-means聚類145
7.1.1工作原理147
7.1.2實現過程149
7.2DBSCAN聚類153
7.2.1工作原理153
7.2.2實現過程155
7.3自組織映射158
7.3.1工作原理159
7.3.2實現過程161
參考文獻166

第8章模型評估168
8.1混淆矩陣169
8.2ROC和AUC170
8.3提升曲線172
8.4實現過程174
8.5總結177
參考文獻178

第9章文本挖掘179
9.1工作原理180
9.1.1詞頻–逆文檔頻率180
9.1.2詞語181
9.2實現過程184
9.2.1實現1:關鍵詞聚類184
9.2.2實現2:預測博客作者的性別187
9.3總結193
參考文獻194

10章深度學習195
10.1AI冬天197
10.1.1AI冬天:20世紀70年代197
10.1. 2冬季解凍:20世紀80年代198
10.1.3人工智能的春夏:2006年至今200
10.2工作原理201
10.2.1神經網絡的回歸模型201
10.2.2梯度下降法202
10.2.3需要反向傳播204
10.2.4分類超過2個:softmax205
10.2.5卷積神經網絡207
10.2.6密集層211
10.2.7隨機失活層211
10.2.8循環神經網絡212
10.2.9自動編碼器213
10.2.10相關AI模型213
10.3實現過程214
10.4總結217
參考文獻218

11章推薦引擎219
11.1推薦引擎的概念221
11.2協同過濾225
11.2.1基於鄰域的方法226
11.2.2矩陣分解233
11.3基於內容的過濾238
11.3. 1用戶畫像的計算239
11.3.2有監督學習方法245
11.4混合推薦器249
11.5總結250
參考文獻251

12章時間序列預測253
12.1時間序列分解256
12.1.1經典分解258
12.1.2實現過程258
12.2基於平滑的方法260
12.2. 1簡單預測方法260
12.2.2指數平滑261
12.2.3實現過程263
12.3基於回歸的方法2
12.3.1回歸265
12.3.2週期性回歸266
12.3.3集成移動平均自回歸模型268
12.3.4週期性ARIMA272
12.4機器學習方法274
12.4.1窗口化275
12.4.2神經網絡自回歸280
……