數據挖掘:原理與應用

丁兆雲,週鋆,杜振國

  • 出版商: 機械工業
  • 出版日期: 2021-12-21
  • 定價: $474
  • 售價: 7.5$356
  • 語言: 簡體中文
  • 頁數: 304
  • 裝訂: 平裝
  • ISBN: 7111696301
  • ISBN-13: 9787111696308
  • 相關分類: 大數據 Big-dataData Science
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

目前,數據挖掘類課程已成為我國新工科教育的數據科學思維提升課程,
成為信息、電子等各類工科專業本科生與研究生的必修課。
本書深入淺出地介紹了數據挖掘和數據分析的知識、
常用的各類算法;系統梳理與比較各類算法的優缺點與適用場景。
本書內容結合作者多年的科研和教學經驗,
大量案例來自作者的項目和科研成果,
不僅適合作為大數據特色類專業的本科生和研究生教材,
同時也適合機械、航空等其他工科專業的入門與自學教材,
還可作為各專業本科生與研究生考試複習的參考資料。

目錄大綱

前言
第1章 緒論1
1.1 數據挖掘的出現1
1.2 為什麼要學習數據挖掘1
1.2.1 數據爆炸但知識貧乏1
1.2.2 從商業數據到商業智能的進化2
1.2.3 科學發展範式2
1.3 什麼是數據挖掘3
1.3.1 數據挖掘的出現3
1.3.2 數據挖掘的定義3
1.3.3 數據的含義4
1.3.4 信息的含義4
1.3.5 知識的含義5
1.3.6 數據、信息、知識的關係5
1.3.7 數據挖掘過程5
1.3.8 數據挖掘的關聯課程6
1.4 數據挖掘的內容7
1.4.1 關聯規則挖掘7
1.4.2 分類7
1.4.3 聚類9
1.4.4 回歸10
1.5 本章小結10

第2章 認識數據11
2.1 數據的基本概念11
2.1.1 數據對象11
2.1.2 數據屬性12
2.1.3 屬性的類型13
2.1.4 屬性類型的對比14
2.1.5 離散屬性與連續屬性14
2.2 數據的基本統計方法15
2.2.1 中心化趨勢統計量:均值、中位數和眾數15
2.2.2 離散度度量16
2.2.3 分佈形狀度量17
2.3 數據的基本可視化方法18
2.3.1 箱線圖可視化18
2.3.2 直方圖可視化19
2.3.3 散點圖可視化19
2.4 數據相似性的計算方法20
2.4.1 數據相似性和相異性度量的基本概念20
2.4.2 標稱屬性的鄰近性度量21
2.4.3 二值屬性的鄰近性度量22
2.4.4 序數屬性的鄰近性度量23
2.4.5 數值屬性的鄰近性度量23
2.4.6 混合類型屬性的鄰近性度量25
2.4.7 餘弦相似性25
2.5 本章小結26

第3章 數據預處理27
3.1 數據質量27
3.2 數據預處理的主要任務27
3.2.1 數據清理27
3.2.2 數據集成28
3.2.3 數據規約32
3.2.4 數據規範化和數據離散化37
3.3 特徵構造38
3.3.1 為什麼需要特徵構造38
3.3.2 基本特徵構造法38
3.3.3 時間類型數據特徵構造法39
3.3.4 時間序列數據特徵構造法41
3.3.5 離散數據特徵啞編碼42
3.4 本章小結43

第4章 分類的基本概念與朴素貝葉斯分類器44
4.1 分類的基本概念44
4.2 樸素貝葉斯分類的基礎理論45
4.2.1 貝葉斯示例45
4.2.2 貝葉斯定理46
4.2.3 極大後驗假設46
4.2.4 多維屬性的聯合概率47
4.2.5 獨立性假設47
4.2.6 訓練集介紹47
4.3 貝葉斯分類的案例48
4.3.1 案例一:購買電腦預測48
4.3.2 案例二:垃圾郵件分類49
4.4 連續類型數據分類50
4.5 本章小結50

第5章 決策樹分類51
5.1 決策樹51
5.2 決策樹構建的兩個問題52
5.2.1 如何構建決策樹52
5.2.2 構造什麼樣的決策樹是合適的53
5.3 決策樹算法54
5.3.1 Hunt算法54
5.3.2 構建決策樹的關鍵問題56
5.3.3 信息增益算法57
5.3.4 C4.5算法59
5.3.5 CART算法61
5.4 本章小結64

第6章 規則和最近鄰分類器66
6.1 基於規則的分類66
6.1.1 基於規則的分類示例66
6.1.2 規則的質量68
6.1.3 規則分類器的特徵68
6.1.4 基於規則的分類器的建立69
6.1.5 規則分類的特點76
6.2 急切學習與惰性學習76
6.3 最近鄰分類器77
6.3.1 最近鄰算法的定義77
6.3.2 K最近鄰分類算法78
6.4 本章小結79

第7章 回歸算法80
7.1 線性回歸的案例:房價預測80
7.2 線性回歸算法81
7.2.1 線性回歸的提出81
7.2.2 線性回歸建模81
7.2.3 最小二乘法82
7.3 優化求解方法83
7.3.1 梯度下降83
7.3.2 梯度下降法求解83
7.3.3 學習率分析84
7.3.4 梯度下降法收斂85
7.3.5 梯度下降法的變體86
7.4 邏輯回歸87
7.4.1 邏輯回歸函數87
7.4.2 邏輯回歸的特點87
7.4.3 優勢比88
7.4.4 邏輯回歸參數估計89
7.4.5 邏輯回歸正則化90
7.4.6 邏輯回歸數值優化91
7.4.7 邏輯回歸訓練方法的優化93
7.5 決策樹回歸94
7.5.1 決策樹回歸的基本概念94
7.5.2 決策樹分類劃分點的選擇94
7.5.3 決策樹回歸算法96
7.6 本章小結96

第8章 模型的評價97
8.1 分類模型的評價指標97
8.1.1 混淆矩陣97
8.1.2 準確率97
8.1.3 精確率與召回率98
8.1.4 ROC曲線99
8.2 不平衡分類102
8.2.1 基於抽樣的方法103
8.2.2 兩階段學習104
8.2.3 代價敏感學習104
8.3 過擬合與欠擬合105
8.3.1 訓練誤差和泛化誤差105
8.3.2 噪聲導致的過擬合107
8.3.3 缺乏代表性樣本導致的過擬合107
8.3.4 解決過擬合的方法一:減少泛化誤差109
8.3.5 解決過擬合的方法二:使用確認集估計泛化誤差110
8.4 其他模型評價指標113
8.4.1 回歸模型113
8.4.2 聚類模型114
8.4.3 關聯規則模型115
8.5 本章小結117

第9章 支持向量機分類器118
9.1 支持向量機的提出118
9.1.1 支持向量機簡介118
9.1.2 傳統分類方法的不足118
9.1.3 支持向量機的總體思想119
9.1.4 從Logistic回歸到SVM分析119
9.1.5 支持向量機的應用120
9.2 深入支持向量機121
9.2.1 支持向量機算法的原理121
9.2.2 支持向量機建模122
9.2.3 支持向量機求解123
9.3 非線性支持向量機126
9.3.1 基於軟間隔的C-SVM126
9.3.2 非線性SVM與核變換129
9.3.3 支持向量機二分類推廣131
9.4 本章小結131

第10章 神經網絡分類器132
10.1 人工神經網絡出現的背景 132
10.1.1 發展歷程132
10.1.2 端到端的學習133
10.1.3 神經網絡的優點133
10.1.4 時代的必然性134
10.2 神經網絡基礎:感知機134
10.2.1 感知機的直觀理解134
10.2.2 感知機數學模型135
10.2.3 感知機訓練136
10.2.4 感知機的缺陷:“異或”分類問題136
10.2.5 多層感知機模型137
10.2.6 多層感知機解決“異或”分類問題138
10.3 後向傳播神經網絡139
10.3.1 後向傳播算法的原理139
10.3.2 神經元激活函數141
10.3.3 後向傳播算法參數學習的推導143
10.3.4 後向傳播算法參數更新案例147
10.4 本章小結150

第11章 集成學習151
11.1 集成學習簡介151
11.1.1 集成學習的定義和基本思想151
11.1.2 集成學習過程151
11.1.3 集成學習的優勢154
11.2 集成學習算法155
11.2.1 Bagging算法155
11.2.2 隨機森林156
11.2.3 Boosting方法157
11.2.4 GBDT167
11.3 Stacking方法168
11.4 LightGBM方法169
11.4.1 LightGBM簡介169
11.4.2 GOSS169
11.4.3 EFB170
11.4.4 LightGBM的一些其他特性172
11.4.5 LightGBM中的並行學習173
11.4.6 LightGBM中主要的調節參數175
11.5 本章小結176

第12章 聚類算法177
12.1 聚類概述177
12.1.1 什麼是聚類177
12.1.2 分類與聚類178
12.1.3 聚類的應用178
12.1.4 聚類的要求178
12.2 基本的聚類方法179
12.2.1 劃分方法179
12.2.2 層次方法184
12.2.3 基於密度的方法188
12.2.4 圖論聚類方法190
12.2.5 網格算法191
12.2.6 模型算法192
12.3 聚類評估192
12.3.1 估計聚類趨勢192
12.3.2 確定數據集中的簇數193
12.3.3 聚類質量的度量193
12.4 本章小結194

第13章 關聯規則挖掘195
13.1 定義195
13.1.1 關聯分析的概念195
13.1.2 頻繁項集196
13.1.3 頻繁項集196
13.1.4 關聯規則挖掘問題196
13.1.5 關聯規則挖掘蠻力方法197
13.2 Apriori算法198
13.2.1 Apriori算法的過程199
13.2.2 Apriori算法的項字典序與項連接200
13.2.3 Apriori算法的特點200
13.2.4 提高Apriori算法性能的方法201
13.3 FP-Growth算法201
13.3.1 構造FP樹201
13.3.2 基於FP樹的頻繁項集挖掘202
13.3.3 FP樹結構的優點203
13.4 挖掘關聯規則203
13.4.1 關聯規則生成集合203
13.4.2 關聯規則生成優化方法204
13.5 關聯分析評估204
13.6 本章小結205

第14章 計算網絡節點影響力206
14.1 基本定義206
14.1.1 有向圖206
14.1.2 無向圖206
14.1.3 鄰接矩陣207
14.2 基於節點鄰近的影響力計算207
14.2.1 度中心性207
14.2.2 半局部中心性208
14.2.3 K殼分解法208
14.3 基於路徑的影響力計算209
14.3.1 離心中心性209
14.3.2 接近中心性209
14.3.3 介數中心性209
14.4 基於特徵向量的影響力計算210
14.4.1 特徵向量中心性210
14.4.2 PageRank210
14.4.3 HITS算法212
14.4.4 自動信息匯集算法214
14.4.5 SALSA算法214
14.5 基於節點移除和收縮的影響力計算215
14.5.1 節點刪除的最短距離法215
14.5.2 節點刪除的生成樹法215
14.5.3 節點收縮法216
14.5.4 殘餘接近中心性216
14.6 本章小結217

第15章 信息推薦算法218
15.1 背景218
15.2 基於內容的信息推薦219
15.3 基於協同過濾的信息推薦221
15.3.1 基於用戶的協同過濾推薦221
15.3.2 基於內容的協同過濾推薦223
15.4 混合推薦方法224
15.5 信息推薦的評價指標225
15.5.1 準確性指標225
15.5.2 排序加權指標227
15.5.3 多樣性和創新性評價指標228
15.5.4 覆蓋率評價指標229
15.6 本章小結230

第16章 自然語言處理中常用的神經網絡模型231
16.1 基於神經網絡的自然語言處理基本框架231
16.2 分佈式詞向量233
16.2.1 CBOW模型234
16.2.2 Skip-gram模型234
16.2.3 Word2Vec的負採樣訓練方法235
16.3 循環神經網絡236
16.4 卷積神經網絡238
16.5 BERT模型241
16.5.1 預訓練模型242
16.5.2 BERT模型的架構243
16.5.3 BERT模型的輸入表徵244
16.5.4 BERT模型的應用244
16.6 本章小結245
附錄 試題精選246
試題精選一246
試題精選二250
試題精選三252
試題精選四255
試題精選五259
試題精選六260
試題精選七263
試題精選八267
試題精選九270
試題精選十276
試題精選十一281
試題精選十二287