大數據處理方法與技術(微課視頻版)
黃敏、陳銳、張世征、郭延哺
- 出版商: 清華大學
- 出版日期: 2026-03-01
- 定價: $419
- 售價: $418
- 語言: 簡體中文
- ISBN: 7302708878
- ISBN-13: 9787302708872
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
商品描述
目錄大綱
目錄
資源下載
第1章大數據處理概述1
1.1什麼是大數據2
1.1.1大數據的定義2
1.1.2大數據的特點2
1.1.3大數據、數據挖掘與機器學習4
1.2大數據的發展5
1.2.1萌芽期5
1.2.2發展期6
1.2.3爆發期6
1.2.4大規模應用期7
1.3大數據的處理流程9
1.3.1數據采集10
1.3.2數據存儲10
1.3.3數據清洗11
1.3.4數據分析與可視化12
1.4大數據分析與處理的方法12
1.4.1數學與統計學13
1.4.2機器學習13
1.4.3數據存儲與挖掘16
1.4.4自然語言處理18
1.5大數據應用場景19
小結19
習題19
第2章數據的獲取與提取21
2.1Web頁面數據獲取22
2.1.1網絡爬蟲技術簡介22大數據處理方法與技術(微課視頻版)目錄2.1.2網絡爬蟲的工作原理25
2.1.3爬蟲類型26
2.1.4爬蟲的內核技術28
2.1.5主題爬蟲技術36
2.1.6反爬蟲技術41
2.1.7網絡爬蟲技術的展望43
2.2大數據的提取技術44
2.2.1Web頁面內容提取技術44
2.2.2基於統計的Web信息抽取方法51
2.2.3互聯網大數據提取的挑戰和前沿應用56
小結58
習題58
第3章數據探索與預處理59
3.1數據屬性類型60
3.1.1數據屬性60
3.1.2數據屬性的特征分析61
3.1.3數據屬性的轉換與編碼62
3.2數據統計描述64
3.2.1數據集中趨勢度量64
3.2.2數據離散程度的度量65
3.2.3數據相關性分析66
3.3數據的相似性度量67
3.3.1基於距離的相似性度量68
3.3.2基於向量夾角的相似性度量69
3.3.3基於概率和信息論的相似性度量70
3.4數據清洗71
3.4.1缺失值處理方法71
3.4.2噪聲數據處理72
3.4.3異常值處理73
3.5數據規範化和編碼75
3.5.1數據規範化75
3.5.2數據編碼77
3.6數據歸約78
3.6.1數據立方體聚集78
3.6.2維歸約80
3.6.3數據壓縮81
3.6.4數值歸約83
3.6.5數據離散化和概念分層84
小結89
習題89
第4章大數據的結構化處理與分析技術90
4.1大數據的文本信息特征91
4.2中文分詞92
4.2.1基於詞典的分詞92
4.2.2基於統計的分詞方法95
4.2.3基於深度學習的分詞方法101
4.2.4分詞歧義消解102
4.2.5新詞識別與停用詞處理104
4.2.6目前的分詞系統與語料庫105
4.3命名實體識別技術106
4.3.1命名實體識別簡介106
4.3.2基於規則的命名實體識別106
4.3.3基於隱馬爾可夫模型的命名實體識別107
4.3.4基於條件隨機場的命名實體識別110
4.4向量空間表示112
4.4.1詞袋模型112
4.4.2向量空間模型113
4.4.3概率模型114
4.4.4獨熱編碼114
4.4.5詞嵌入114
4.5矩陣分解與主題建模117
4.5.1SVD117
4.5.2非負矩陣分解120
4.5.3概率潛在語義分析120
4.5.4LDA122
4.6文本信息抽取與信息檢索123
4.6.1關系抽取123
4.6.2事件抽取124
4.6.3信息檢索125
小結127
習題128
第5章關聯規則挖掘130
5.1基本概念131
5.1.1項集131
5.1.2關聯規則131
5.1.3支持度132
5.1.4置信度132
5.1.5提升度132
5.1.6頻繁項集133
5.2Apriori算法135
5.2.1Apriori算法思想135
5.2.2Apriori算法應用舉例137
5.3FPgrowth算法139
5.3.1構建FP樹139
5.3.2挖掘FP樹144
5.4關聯規則評價146
5.4.1支持度置信度的缺陷146
5.4.2擴充評價方法147
5.4.3電影數據集的關聯規則挖掘實例150
小結152
習題152
第6章聚類153
6.1聚類算法簡介154
6.1.1聚類算法分類154
6.1.2距離度量方法155
6.2Kmeans聚類156
6.2.1Kmeans聚類算法思想156
6.2.2通過調用庫函數實現聚類163
6.3基於密度的聚類——DBSCAN聚類166
6.3.1DBSCAN算法原理及相關概念167
6.3.2DBSCAN聚類算法167
6.4基於層次的聚類——AGNES聚類171
6.4.1AGNES聚類算法思想171
6.4.2AGNES算法實現172
6.5高斯混合聚類175
6.5.1概率密度函數175
6.5.2高斯混合聚類算法推導過程176
6.5.3高斯混合聚類算法思想177
6.5.4高斯混合聚類應用舉例178
6.6各種聚類算法的比較182
小結183
習題184
第7章回歸分析186
7.1回歸分析概述187
7.2線性回歸188
7.2.1單變量線性回歸188
7.2.2多變量回歸分析195
7.2.3多項式回歸分析200
7.3邏輯回歸202
7.3.1sigmoid函數與邏輯回歸模型202
7.3.2梯度下降與推導過程203
7.3.3參數學習向量化205
7.3.4邏輯回歸的Python實現──乳腺良性與惡性腫瘤的預測206
小結213
習題214
第8章分類217
8.1k近鄰算法218
8.1.1k近鄰算法原理218
8.1.2k近鄰算法應用——鳶尾花的分類218
8.1.3非參數估計223
8.2貝葉斯分類器234
8.2.1貝葉斯定理相關理論234
8.2.2樸素貝葉斯分類器原理與設計239
8.2.3樸素貝葉斯分類算法實現──鱸魚和三文魚的分類系統244
8.2.4正態貝葉斯分類器252
8.2.5貝葉斯網絡253
8.3決策樹257
8.3.1決策樹相關概念257
8.3.2決策樹構造過程258
8.3.3決策樹學習算法思想及實現261
8.3.4決策樹算法實現——泰坦尼克號幸存者預測264
8.4SVM269
8.4.1線性可分與感知機271
8.4.2間隔最大化及線性SVM274
8.4.3線性SVM算法實現278
8.4.4非線性SVM與核函數280
8.4.5SVM回歸288
8.4.6SVM算法實現——鳶尾花的分類289
小結293
習題294
第9章人工神經網絡與深度學習298
9.1感知機與人工神經網絡299
9.1.1感知機299
9.1.2人工神經網絡模型301
9.2BP神經網絡303
9.2.1BP神經算法模型參數學習過程303
9.2.2BP神經網絡算法實現305
9.2.3BP神經網絡算法實現——鳶尾花分類309
9.3深度學習316
9.3.1深度學習概述316
9.3.2卷積神經網絡319
9.3.3循環神經網絡327
小結334
習題335
第10章推薦算法337
10.1推薦系統簡介338
10.1.1信息檢索與推薦系統338
10.1.2推薦系統的發展歷史338
10.1.3推薦系統的原理與分類340
10.1.4推薦系統的評估方法341
10.2基於最近鄰的協同過濾推薦算法343
10.2.1基於近鄰用戶的協同過濾推薦343
10.2.2基於近鄰項目的協同過濾推薦347
10.2.3算法實現350
10.3基於隱語義分析的推薦模型353
10.4基於標簽的推薦算法358
小結359
習題359
第11章綜合案例分析361
參考文獻362








