Hadoop與Spark大數據全景解析(視頻教學版)
鄧傑
- 出版商: 清華大學
- 出版日期: 2025-04-01
- 定價: $588
- 售價: 8.5 折 $500
- 語言: 簡體中文
- ISBN: 7302684804
- ISBN-13: 9787302684800
-
相關分類:
Hadoop、Spark、大數據 Big-data
下單後立即進貨 (約4週~6週)
商品描述
"《Hadoop與Spark大數據全景解析:視頻教學版》結合作者多年在大數據領域的開發實踐經驗,採用“理論+實戰”的形式,以大量實例全面介紹Hadoop和Spark的基礎知識及其高級應用。作者將豐富的教學經驗,融入為讀者精心錄制的配套教學視頻中,並提供了書中所有實例的源碼,方便讀者學習和實踐。 《Hadoop與Spark大數據全景解析:視頻教學版》分為4篇,共12章。第1篇(第1、2章)準備篇,主要介紹Hadoop和Spark的基本概念,以及如何快速搭建Hadoop和Spark的學習環境。第2篇(第3~6章)入門篇,涵蓋Hadoop的高級特性、Spark的基礎知識與高級特性,以及大數據安全。第3篇(第7~10章)進階篇,深入講解數據採集與清洗、數據存儲與管理、數據分析與挖掘以及實時數據處理。第4篇(第11、12章)項目實戰篇,通過Hadoop和Spark實現一站式數據分析系統設計,以及ChatGPT賦能Hadoop與Spark大數據分析的項目實戰。 《Hadoop與Spark大數據全景解析:視頻教學版》內容全面、結構清晰、案例豐富,既適合初學者自學,也適合開發者閱讀,還可作為培訓機構和高校相關課程的教學參考書。"
目錄大綱
目 錄
第1篇 準 備
第1章 瞭解Hadoop和Spark 2
1.1 什麽是大數據處理 2
1.1.1 大數據概述 2
1.1.2 數據處理的挑戰 4
1.2 為什麽選擇Hadoop和Spark 5
1.2.1 Hadoop的優勢 5
1.2.2 Spark的優勢 6
1.3 典型的大數據應用案例 8
1.3.1 行業應用案例 8
1.3.2 成功案例分析 10
1.4 Hadoop和Spark的設計理念 12
1.4.1 設計初衷 12
1.4.2 解讀Hadoop和Spark的特性 13
1.5 本章小結 15
第2章 快速搭建Hadoop和Spark學習環境 16
2.1 Hadoop簡介 16
2.1.1 起源與發展 16
2.1.2 核心組件介紹 17
2.2 基礎環境的安裝與配置 19
2.2.1 基礎軟件下載 19
2.2.2 實例:Linux操作系統的安裝與配置 20
2.2.3 實例:SSH的安裝與配置 22
2.2.4 實例:Java運行環境的安裝與配置 24
2.2.5 實例:安裝與配置Zookeeper 26
2.3 Hadoop和Spark環境搭建 30
2.3.1 實例:Hadoop環境搭建 31
2.3.2 實例:Spark環境搭建 46
2.4 Hadoop MapReduce基礎 48
2.4.1 MapReduce編程模型之Map階段 48
2.4.2 MapReduce編程模型之Reduce階段 49
2.5 本章小結 51
2.6 習題 51
第2篇 入 門
第3章 Hadoop高級特性 54
3.1 HDFS架構深度解析 54
3.1.1 HDFS架構 54
3.1.2 數據塊管理 56
3.1.3 命名空間 57
3.1.4 數據一致性 58
3.2 YARN調度器與資源管理 60
3.2.1 YARN基本原理 60
3.2.2 資源分配策略 62
3.3 Hadoop數據安全性 63
3.3.1 安全策略概述 64
3.3.2 Kerberos認證 65
3.4 Hadoop性能調優 68
3.4.1 集群性能監控 68
3.4.2 參數調優指南 69
3.5 Hadoop實戰案例 71
3.5.1 實際問題解決 71
3.5.2 最佳實踐分享 73
3.6 本章小結 77
3.7 習題 77
第4章 Spark基礎特性 78
4.1 Spark簡介 78
4.1.1 Spark發展歷程 78
4.1.2 Spark核心思想 79
4.2 Spark核心組件 80
4.2.1 Spark Core 81
4.2.2 Spark SQL 83
4.3 Spark基本數據結構 85
4.3.1 RDD概述 85
4.3.2 DataFrame和DataSet介紹 88
4.4 內存管理 96
4.4.1 內存分配策略 96
4.4.2 內存回收機制 101
4.5 本章小結 104
4.6 習題 104
第5章 Spark高級特性 105
5.1 Spark SQL與結構化數據處理 105
5.1.1 使用Spark SQL進行數據查詢和分析 105
5.1.2 Spark SQL數據類型與函數使用 109
5.2 Spark Streaming與實時數據處理 117
5.2.1 Spark Streaming的基本概念與架構 117
5.2.2 Spark Streaming與Kafka的集成與應用 122
5.3 Spark MLlib與機器學習 124
5.3.1 Spark MLlib的常用算法與應用場景 125
5.3.2 Spark MLlib與TensorFlow的比較與集成 132
5.4 Spark GraphX與圖計算 134
5.4.1 圖計算的基本概念與Spark GraphX的架構 134
5.4.2 Spark GraphX的常用算法與圖數據處理 140
5.5 本章小結 147
5.6 習題 147
第6章 大數據安全 148
6.1 大數據安全性挑戰 148
6.1.1 大數據安全的重要性 148
6.1.2 Hadoop與Spark安全特性 149
6.2 Hadoop安全架構 151
6.2.1 Hadoop安全模型 152
6.2.2 HDFS與YARN的安全機制 153
6.3 Spark安全實踐 155
6.3.1 Spark的安全配置 155
6.3.2 Spark應用程序的訪問控制 158
6.4 數據加密與隱私保護 164
6.5 身份認證與授權 174
6.6 本章小結 176
6.7 習題 176
第3篇 進 階
第7章 數據採集與清洗 178
7.1 Hadoop數據採集 178
7.1.1 數據源與採集工具 178
7.1.2 Hadoop數據採集流程與案例 181
7.2 Spark數據採集 185
7.2.1 Spark數據源接入方式 185
7.2.2 Spark數據採集的實踐與優化 193
7.3 Hadoop數據清洗 197
7.3.1 數據清洗的基本概念與策略 197
7.3.2 使用MapReduce進行數據清洗 198
7.4 Hadoop與Spark數據處理對比 202
7.5 本章小結 204
7.6 習題 204
第8章 數據存儲與管理 205
8.1 大數據存儲架構 205
8.1.1 存儲架構的演變 205
8.1.2 存儲架構選擇指南 207
8.2 存儲格式與壓縮 214
8.2.1 數據格式比較 214
8.2.2 壓縮算法分析 216
8.3 數據分區與分桶 217
8.3.1 數據分區 218
8.3.2 數據分桶 226
8.4 數據倉庫設計 229
8.5 本章小結 231
8.6 習題 232
第9章 數據分析與挖掘 233
9.1 大數據分析 233
9.2 數據挖掘算法 237
9.2.1 數據挖掘算法的分類與應用場景 237
9.2.2 常見的大數據挖掘算法及其實現原理 239
9.3 特徵工程 250
9.3.1 特徵提取與構建 251
9.3.2 特徵類型與數據分析方法 252
9.4 本章小結 256
9.5 習題 257
第10章 實時數據處理 258
10.1 實時處理概念 258
10.1.1 實時數據處理的定義 258
10.1.2 實時數據處理與批處理對比 260
10.2 Spark Streaming 262
10.2.1 DStream概述 263
10.2.2 實時數據處理模型 266
10.3 實時數據處理工具比較 271
10.3.1 Spark與Flink對比分析 271
10.3.2 Kafka實時計算引擎選型實踐 275
10.4 本章小結 284
10.5 習題 284
第4篇 項 目 實 戰
第11章 一站式數據分析系統設計與實現 286
11.1 大數據分析系統 286
11.1.1 大數據分析系統的價值 286
11.1.2 大數據分析系統的目的 287
11.1.3 大數據分析系統的應用場景 288
11.2 大數據分析系統架構 289
11.2.1 大數據分析系統的體系架構 289
11.2.2 設計大數據分析系統的核心模塊 291
11.3 實現大數據分析系統 292
11.3.1 數據採集 292
11.3.2 數據存儲 295
11.3.3 數據分析 302
11.3.4 數據服務 304
11.4 本章小結 306
11.5 習題 306
第12章 ChatGPT賦能Hadoop與Spark大數據分析 307
12.1 ChatGPT與大數據的智能融合探索 307
12.1.1 ChatGPT全面解析 307
12.1.2 ChatGPT在大數據分析中的角色 313
12.2 構建智能化的大數據處理引擎 316
12.2.1 ChatGPT與Spark的集成實現 316
12.2.2 ChatGPT與Spark應用案例分析 320
12.3 ChatGPT與Spark數據分析與挖掘實踐 324
12.3.1 ChatGPT與Spark技術整合 324
12.3.2 ChatGPT在Spark數據分析中的應用 326
12.4 本章小結 328
12.5 習題 328