大數據處理方法與技術(微課視頻版)

黃敏、陳銳、張世征、郭延哺

  • 出版商: 清華大學
  • 出版日期: 2026-03-01
  • 定價: $419
  • 售價: $418
  • 語言: 簡體中文
  • ISBN: 7302708878
  • ISBN-13: 9787302708872
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • 大數據處理方法與技術(微課視頻版)-preview-1
  • 大數據處理方法與技術(微課視頻版)-preview-2
  • 大數據處理方法與技術(微課視頻版)-preview-3
  • 大數據處理方法與技術(微課視頻版)-preview-4
  • 大數據處理方法與技術(微課視頻版)-preview-5
  • 大數據處理方法與技術(微課視頻版)-preview-6
  • 大數據處理方法與技術(微課視頻版)-preview-7
  • 大數據處理方法與技術(微課視頻版)-preview-8
大數據處理方法與技術(微課視頻版)-preview-1

商品描述

"本書全面、系統地介紹大數據處理的基本概念、方法與技術,涵蓋各種大數據的基本概念、數據采集、數據預處理、結構化處理方法、模型算法與案例應用等。 全書共13章,主要內容包括大數據處理概述、數據的獲取與提取、數據探索與預處理、大數據的結構化處理與分析技術、關聯規則挖掘、聚類、回歸分析、分類、人工神經網絡與深度學習、推薦算法及三個典型綜合案例分析。本書內容全面,理論與實踐並重,通過大量圖表和案例講解算法實現過程,方便讀者理解和掌握。 本書可作為高等院校計算機類相關專業的課程教材,也可作為感興趣讀者的自學讀物,還可作為相關行業技術人員的參考用書。 "

目錄大綱

目錄

資源下載

第1章大數據處理概述1

1.1什麼是大數據2

1.1.1大數據的定義2

1.1.2大數據的特點2

1.1.3大數據、數據挖掘與機器學習4

1.2大數據的發展5

1.2.1萌芽期5

1.2.2發展期6

1.2.3爆發期6

1.2.4大規模應用期7

1.3大數據的處理流程9

1.3.1數據采集10

1.3.2數據存儲10

1.3.3數據清洗11

1.3.4數據分析與可視化12

1.4大數據分析與處理的方法12

1.4.1數學與統計學13

1.4.2機器學習13

1.4.3數據存儲與挖掘16

1.4.4自然語言處理18

1.5大數據應用場景19

小結19

習題19

第2章數據的獲取與提取21

2.1Web頁面數據獲取22

2.1.1網絡爬蟲技術簡介22大數據處理方法與技術(微課視頻版)目錄2.1.2網絡爬蟲的工作原理25

2.1.3爬蟲類型26

2.1.4爬蟲的內核技術28

2.1.5主題爬蟲技術36

2.1.6反爬蟲技術41

2.1.7網絡爬蟲技術的展望43

2.2大數據的提取技術44

2.2.1Web頁面內容提取技術44

2.2.2基於統計的Web信息抽取方法51

2.2.3互聯網大數據提取的挑戰和前沿應用56

小結58

習題58

第3章數據探索與預處理59

3.1數據屬性類型60

3.1.1數據屬性60

3.1.2數據屬性的特征分析61

3.1.3數據屬性的轉換與編碼62

3.2數據統計描述64

3.2.1數據集中趨勢度量64

3.2.2數據離散程度的度量65

3.2.3數據相關性分析66

3.3數據的相似性度量67

3.3.1基於距離的相似性度量68

3.3.2基於向量夾角的相似性度量69

3.3.3基於概率和信息論的相似性度量70

3.4數據清洗71

3.4.1缺失值處理方法71

3.4.2噪聲數據處理72

3.4.3異常值處理73

3.5數據規範化和編碼75

3.5.1數據規範化75

3.5.2數據編碼77

3.6數據歸約78

3.6.1數據立方體聚集78

3.6.2維歸約80

3.6.3數據壓縮81

3.6.4數值歸約83

3.6.5數據離散化和概念分層84

小結89

習題89

第4章大數據的結構化處理與分析技術90

4.1大數據的文本信息特征91

4.2中文分詞92

4.2.1基於詞典的分詞92

4.2.2基於統計的分詞方法95

4.2.3基於深度學習的分詞方法101

4.2.4分詞歧義消解102

4.2.5新詞識別與停用詞處理104

4.2.6目前的分詞系統與語料庫105

4.3命名實體識別技術106

4.3.1命名實體識別簡介106

4.3.2基於規則的命名實體識別106

4.3.3基於隱馬爾可夫模型的命名實體識別107

4.3.4基於條件隨機場的命名實體識別110

4.4向量空間表示112

4.4.1詞袋模型112

4.4.2向量空間模型113

4.4.3概率模型114

4.4.4獨熱編碼114

4.4.5詞嵌入114

4.5矩陣分解與主題建模117

4.5.1SVD117

4.5.2非負矩陣分解120

4.5.3概率潛在語義分析120

4.5.4LDA122

4.6文本信息抽取與信息檢索123

4.6.1關系抽取123

4.6.2事件抽取124

4.6.3信息檢索125

小結127

習題128

第5章關聯規則挖掘130

5.1基本概念131

5.1.1項集131

5.1.2關聯規則131

5.1.3支持度132

5.1.4置信度132

5.1.5提升度132

5.1.6頻繁項集133

5.2Apriori算法135

5.2.1Apriori算法思想135

5.2.2Apriori算法應用舉例137

5.3FPgrowth算法139

5.3.1構建FP樹139

5.3.2挖掘FP樹144

5.4關聯規則評價146

5.4.1支持度置信度的缺陷146

5.4.2擴充評價方法147

5.4.3電影數據集的關聯規則挖掘實例150

小結152

習題152

第6章聚類153

6.1聚類算法簡介154

6.1.1聚類算法分類154

6.1.2距離度量方法155

6.2Kmeans聚類156

6.2.1Kmeans聚類算法思想156

6.2.2通過調用庫函數實現聚類163

6.3基於密度的聚類——DBSCAN聚類166

6.3.1DBSCAN算法原理及相關概念167

6.3.2DBSCAN聚類算法167

6.4基於層次的聚類——AGNES聚類171

6.4.1AGNES聚類算法思想171

6.4.2AGNES算法實現172

6.5高斯混合聚類175

6.5.1概率密度函數175

6.5.2高斯混合聚類算法推導過程176

6.5.3高斯混合聚類算法思想177

6.5.4高斯混合聚類應用舉例178

6.6各種聚類算法的比較182

小結183

習題184

第7章回歸分析186

7.1回歸分析概述187

7.2線性回歸188

7.2.1單變量線性回歸188

7.2.2多變量回歸分析195

7.2.3多項式回歸分析200

7.3邏輯回歸202

7.3.1sigmoid函數與邏輯回歸模型202

7.3.2梯度下降與推導過程203

7.3.3參數學習向量化205

7.3.4邏輯回歸的Python實現──乳腺良性與惡性腫瘤的預測206

小結213

習題214

第8章分類217

8.1k近鄰算法218

8.1.1k近鄰算法原理218

8.1.2k近鄰算法應用——鳶尾花的分類218

8.1.3非參數估計223

8.2貝葉斯分類器234

8.2.1貝葉斯定理相關理論234

8.2.2樸素貝葉斯分類器原理與設計239

8.2.3樸素貝葉斯分類算法實現──鱸魚和三文魚的分類系統244

8.2.4正態貝葉斯分類器252

8.2.5貝葉斯網絡253

8.3決策樹257

8.3.1決策樹相關概念257

8.3.2決策樹構造過程258

8.3.3決策樹學習算法思想及實現261

8.3.4決策樹算法實現——泰坦尼克號幸存者預測264

8.4SVM269

8.4.1線性可分與感知機271

8.4.2間隔最大化及線性SVM274

8.4.3線性SVM算法實現278

8.4.4非線性SVM與核函數280

8.4.5SVM回歸288

8.4.6SVM算法實現——鳶尾花的分類289

小結293

習題294

第9章人工神經網絡與深度學習298

9.1感知機與人工神經網絡299

9.1.1感知機299

9.1.2人工神經網絡模型301

9.2BP神經網絡303

9.2.1BP神經算法模型參數學習過程303

9.2.2BP神經網絡算法實現305

9.2.3BP神經網絡算法實現——鳶尾花分類309

9.3深度學習316

9.3.1深度學習概述316

9.3.2卷積神經網絡319

9.3.3循環神經網絡327

小結334

習題335

第10章推薦算法337

10.1推薦系統簡介338

10.1.1信息檢索與推薦系統338

10.1.2推薦系統的發展歷史338

10.1.3推薦系統的原理與分類340

10.1.4推薦系統的評估方法341

10.2基於最近鄰的協同過濾推薦算法343

10.2.1基於近鄰用戶的協同過濾推薦343

10.2.2基於近鄰項目的協同過濾推薦347

10.2.3算法實現350

10.3基於隱語義分析的推薦模型353

10.4基於標簽的推薦算法358

小結359

習題359

第11章綜合案例分析361

參考文獻362