Hadoop與Spark大數據全景解析(視頻教學版)

鄧傑

  • 出版商: 清華大學
  • 出版日期: 2025-04-01
  • 定價: $588
  • 售價: 8.5$500
  • 語言: 簡體中文
  • ISBN: 7302684804
  • ISBN-13: 9787302684800
  • 相關分類: HadoopSpark大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • Hadoop與Spark大數據全景解析(視頻教學版)-preview-1
  • Hadoop與Spark大數據全景解析(視頻教學版)-preview-2
  • Hadoop與Spark大數據全景解析(視頻教學版)-preview-3
Hadoop與Spark大數據全景解析(視頻教學版)-preview-1

商品描述

"《Hadoop與Spark大數據全景解析:視頻教學版》結合作者多年在大數據領域的開發實踐經驗,採用“理論+實戰”的形式,以大量實例全面介紹Hadoop和Spark的基礎知識及其高級應用。作者將豐富的教學經驗,融入為讀者精心錄制的配套教學視頻中,並提供了書中所有實例的源碼,方便讀者學習和實踐。 《Hadoop與Spark大數據全景解析:視頻教學版》分為4篇,共12章。第1篇(第1、2章)準備篇,主要介紹Hadoop和Spark的基本概念,以及如何快速搭建Hadoop和Spark的學習環境。第2篇(第3~6章)入門篇,涵蓋Hadoop的高級特性、Spark的基礎知識與高級特性,以及大數據安全。第3篇(第7~10章)進階篇,深入講解數據採集與清洗、數據存儲與管理、數據分析與挖掘以及實時數據處理。第4篇(第11、12章)項目實戰篇,通過Hadoop和Spark實現一站式數據分析系統設計,以及ChatGPT賦能Hadoop與Spark大數據分析的項目實戰。 《Hadoop與Spark大數據全景解析:視頻教學版》內容全面、結構清晰、案例豐富,既適合初學者自學,也適合開發者閱讀,還可作為培訓機構和高校相關課程的教學參考書。"

目錄大綱

目    錄

第1篇  準    備

第1章  瞭解Hadoop和Spark 2

1.1  什麽是大數據處理 2

1.1.1  大數據概述 2

1.1.2  數據處理的挑戰 4

1.2  為什麽選擇Hadoop和Spark 5

1.2.1  Hadoop的優勢 5

1.2.2  Spark的優勢 6

1.3  典型的大數據應用案例 8

1.3.1  行業應用案例 8

1.3.2  成功案例分析 10

1.4  Hadoop和Spark的設計理念 12

1.4.1  設計初衷 12

1.4.2  解讀Hadoop和Spark的特性 13

1.5  本章小結 15

第2章  快速搭建Hadoop和Spark學習環境 16

2.1  Hadoop簡介 16

2.1.1  起源與發展 16

2.1.2  核心組件介紹 17

2.2  基礎環境的安裝與配置 19

2.2.1  基礎軟件下載 19

2.2.2  實例:Linux操作系統的安裝與配置 20

2.2.3  實例:SSH的安裝與配置 22

2.2.4  實例:Java運行環境的安裝與配置 24

2.2.5  實例:安裝與配置Zookeeper 26

2.3  Hadoop和Spark環境搭建 30

2.3.1  實例:Hadoop環境搭建 31

2.3.2  實例:Spark環境搭建 46

2.4  Hadoop MapReduce基礎 48

2.4.1  MapReduce編程模型之Map階段 48

2.4.2  MapReduce編程模型之Reduce階段 49

2.5  本章小結 51

2.6  習題 51

第2篇  入    門

第3章  Hadoop高級特性 54

3.1  HDFS架構深度解析 54

3.1.1  HDFS架構 54

3.1.2  數據塊管理 56

3.1.3  命名空間 57

3.1.4  數據一致性 58

3.2  YARN調度器與資源管理 60

3.2.1  YARN基本原理 60

3.2.2  資源分配策略 62

3.3  Hadoop數據安全性 63

3.3.1  安全策略概述 64

3.3.2  Kerberos認證 65

3.4  Hadoop性能調優 68

3.4.1  集群性能監控 68

3.4.2  參數調優指南 69

3.5  Hadoop實戰案例 71

3.5.1  實際問題解決 71

3.5.2  最佳實踐分享 73

3.6  本章小結 77

3.7  習題 77

第4章  Spark基礎特性 78

4.1  Spark簡介 78

4.1.1  Spark發展歷程 78

4.1.2  Spark核心思想 79

4.2  Spark核心組件 80

4.2.1  Spark Core 81

4.2.2  Spark SQL 83

4.3  Spark基本數據結構 85

4.3.1  RDD概述 85

4.3.2  DataFrame和DataSet介紹 88

4.4  內存管理 96

4.4.1  內存分配策略 96

4.4.2  內存回收機制 101

4.5  本章小結 104

4.6  習題 104

第5章  Spark高級特性 105

5.1  Spark SQL與結構化數據處理 105

5.1.1  使用Spark SQL進行數據查詢和分析 105

5.1.2  Spark SQL數據類型與函數使用 109

5.2  Spark Streaming與實時數據處理 117

5.2.1  Spark Streaming的基本概念與架構 117

5.2.2  Spark Streaming與Kafka的集成與應用 122

5.3  Spark MLlib與機器學習 124

5.3.1  Spark MLlib的常用算法與應用場景 125

5.3.2  Spark MLlib與TensorFlow的比較與集成 132

5.4  Spark GraphX與圖計算 134

5.4.1  圖計算的基本概念與Spark GraphX的架構 134

5.4.2  Spark GraphX的常用算法與圖數據處理 140

5.5  本章小結 147

5.6  習題 147

第6章  大數據安全 148

6.1  大數據安全性挑戰 148

6.1.1  大數據安全的重要性 148

6.1.2  Hadoop與Spark安全特性 149

6.2  Hadoop安全架構 151

6.2.1  Hadoop安全模型 152

6.2.2  HDFS與YARN的安全機制 153

6.3  Spark安全實踐 155

6.3.1  Spark的安全配置 155

6.3.2  Spark應用程序的訪問控制 158

6.4  數據加密與隱私保護 164

6.5  身份認證與授權 174

6.6  本章小結 176

6.7  習題 176

第3篇  進    階

第7章  數據採集與清洗 178

7.1  Hadoop數據採集 178

7.1.1  數據源與採集工具 178

7.1.2  Hadoop數據採集流程與案例 181

7.2  Spark數據採集 185

7.2.1  Spark數據源接入方式 185

7.2.2  Spark數據採集的實踐與優化 193

7.3  Hadoop數據清洗 197

7.3.1  數據清洗的基本概念與策略 197

7.3.2  使用MapReduce進行數據清洗 198

7.4  Hadoop與Spark數據處理對比 202

7.5  本章小結 204

7.6  習題 204

第8章  數據存儲與管理 205

8.1  大數據存儲架構 205

8.1.1  存儲架構的演變 205

8.1.2  存儲架構選擇指南 207

8.2  存儲格式與壓縮 214

8.2.1  數據格式比較 214

8.2.2  壓縮算法分析 216

8.3  數據分區與分桶 217

8.3.1  數據分區 218

8.3.2  數據分桶 226

8.4  數據倉庫設計 229

8.5  本章小結 231

8.6  習題 232

第9章  數據分析與挖掘 233

9.1  大數據分析 233

9.2  數據挖掘算法 237

9.2.1  數據挖掘算法的分類與應用場景 237

9.2.2  常見的大數據挖掘算法及其實現原理 239

9.3  特徵工程 250

9.3.1  特徵提取與構建 251

9.3.2  特徵類型與數據分析方法 252

9.4  本章小結 256

9.5  習題 257

第10章  實時數據處理 258

10.1  實時處理概念 258

10.1.1  實時數據處理的定義 258

10.1.2  實時數據處理與批處理對比 260

10.2  Spark Streaming 262

10.2.1  DStream概述 263

10.2.2  實時數據處理模型 266

10.3  實時數據處理工具比較 271

10.3.1  Spark與Flink對比分析 271

10.3.2  Kafka實時計算引擎選型實踐 275

10.4  本章小結 284

10.5  習題 284

第4篇  項 目 實 戰

第11章  一站式數據分析系統設計與實現 286

11.1  大數據分析系統 286

11.1.1  大數據分析系統的價值 286

11.1.2  大數據分析系統的目的 287

11.1.3  大數據分析系統的應用場景 288

11.2  大數據分析系統架構 289

11.2.1  大數據分析系統的體系架構 289

11.2.2  設計大數據分析系統的核心模塊 291

11.3  實現大數據分析系統 292

11.3.1  數據採集 292

11.3.2  數據存儲 295

11.3.3  數據分析 302

11.3.4  數據服務 304

11.4  本章小結 306

11.5  習題 306

第12章  ChatGPT賦能Hadoop與Spark大數據分析 307

12.1  ChatGPT與大數據的智能融合探索 307

12.1.1  ChatGPT全面解析 307

12.1.2  ChatGPT在大數據分析中的角色 313

12.2  構建智能化的大數據處理引擎 316

12.2.1  ChatGPT與Spark的集成實現 316

12.2.2  ChatGPT與Spark應用案例分析 320

12.3  ChatGPT與Spark數據分析與挖掘實踐 324

12.3.1  ChatGPT與Spark技術整合 324

12.3.2  ChatGPT在Spark數據分析中的應用 326

12.4  本章小結 328

12.5  習題 328