大數據處理技術基礎與應用(Hadoop+Spark)

許桂秋 孫海民 胡貴恆

  • 出版商: 人民郵電
  • 出版日期: 2024-02-01
  • 定價: $419
  • 售價: 8.5$356
  • 語言: 簡體中文
  • 頁數: 237
  • ISBN: 7115637687
  • ISBN-13: 9787115637680
  • 相關分類: HadoopSpark大數據 Big-data
  • 下單後立即進貨 (約2週~3週)

  • 大數據處理技術基礎與應用(Hadoop+Spark)-preview-1
  • 大數據處理技術基礎與應用(Hadoop+Spark)-preview-2
大數據處理技術基礎與應用(Hadoop+Spark)-preview-1

商品描述

本書是一本介紹大數據處理技術的專業圖書,力求提高讀者對大數據處理的認知水平和動手能力。本書首先介紹大數據技術的相關概念和發展歷程,從實踐的角度介紹 Hadoop 和 Spark 的安裝部署、編程基礎和使用方法;然後結合具體案例,重點介紹 Spark RDD、 Spark SQL、 Spark Streaming、 Spark GraphFrame 等的應用思路和方法,並通過具體代碼,讓讀者更好地感受大數據處理技術的效果。

本書既可以作為高等院校電腦、大數據等相關專業的教材,也可以作為大數據技術相關從業人員的參考書,還可作為零基礎人員學習 Hadoop 和 Spark 技術的入門圖書。

作者簡介

许桂秋,北京中科特瑞科技有限公司运营总监,主要研究方向为大数据、人工智能技术 ,已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。

目錄大綱

第 1章 大數據技術概述 1

1.1 大數據技術簡介 1

1.1.1 大數據的發展 1

1.1.2 大數據的流程 4

1.2 大數據的主流軟件 5

1.2.1 Hadoop 5

1.2.2 Spark 8

1.2.3 Flink 10

1.2.4 Hadoop與Spark對比 11

1.3 大數據的主流編程語言 12

1.3.1 Python語言 12

1.3.2 Java語言 13

1.3.3 Scala語言 13

1.4 本章小結 13

第 2章 Hadoop部署安裝與使用 14

2.1 Linux基本操作 14

2.1.1 Linux簡介 14

2.1.2 新建與刪除用戶 15

2.1.3 目錄權限的查看與修改 16

2.1.4 Linux的常用命令 18

2.1.5 任務實現 21

2.2 搭建Hadoop完全分佈式集群 21

2.2.1 關閉防火牆 21

2.2.2 安裝SSH 22

2.2.3 安裝Xshell及Xftp(可選) 22

2.2.4 安裝Java 24

2.2.5 安裝Hadoop 25

2.2.6 克隆主機 27

2.2.7 安裝完全分佈式模式 29

2.3 查看Hadoop集群的基本信息 37

2.3.1 查詢存儲系統信息 37

2.3.2 查詢計算資源信息 38

2.4 本章小結 39

第3章 HDFS基本操作 40

3.1 Hadoop Shell命令操作HDFS 40

3.1.1 HDFS簡介 40

3.1.2 HDFS Shell命令簡介 45

3.1.3 目錄操作 47

3.1.4 文件操作 47

3.1.5 利用Web界面管理HDFS 50

3.1.6 任務實現 52

3.2 Java操作HDFS 52

3.2.1 在Eclipse中創建HDFS交互Java項目 53

3.2.2 在Java項目中編寫Java應用程序 57

3.2.3 編譯運行應用程序與打包文件 59

3.2.4 任務實現 63

3.2.5 文件常用操作的參考代碼 65

3.3 本章小結 71

第4章 MapReduce基本原理與編程實現 72

4.1 MapReduce基本原理 72

4.1.1 MapReduce簡介 72

4.1.2 MapReduce編程核心思想 73

4.1.3 MapReduce編程規範 74

4.1.4 MapReduce的輸入格式 75

4.1.5 MapReduce的輸出格式 77

4.1.6 分區 77

4.1.7 合並 78

4.2 編程實現——按訪問次數排序 79

4.2.1 編程思路與處理邏輯 79

4.2.2 核心模塊代碼 81

4.2.3 任務實現 83

4.3 本章小結 86

第5章 Hive部署與編程基礎 87

5.1 搭建偽分佈式Hive 87

5.1.1 Hive概述 87

5.1.2 Hive安裝和配置 89

5.2 Hive基本操作 91

5.2.1 數據庫基本操作 92

5.2.2 數據表基本操作 93

5.2.3 數據基本操作 95

5.3 編程實現——部門工資統計 96

5.4 本章小結 98

第6章 Spark部署與編程基礎 99

6.1 Spark的運行原理 99

6.1.1 集群架構 99

6.1.2 運行流程 100

6.1.3 核心數據集RDD 101

6.1.4 核心原理 101

6.2 Scala安裝與使用 102

6.2.1 Scala 語言概述 102

6.2.2 Scala特性 102

6.2.3 環境設置與安裝 103

6.3 Spark安裝與使用 105

6.3.1 環境搭建前的準備 105

6.3.2 Spark的安裝與配置 106

6.3.3 在PySpark中運行代碼 109

6.3.4 編程實現——Spark獨立應用程序 111

6.4 本章小結 112

第7章 Spark RDD:彈性分佈式數據集 113

7.1 RDD概述 113

7.2 RDD編程 114

7.2.1 RDD編程基礎 114

7.2.2 鍵值對RDD 136

7.2.3 數據讀/寫操作 141

7.3 編程實現 145

7.3.1 任務1:取出排名前五的訂單支付金額 145

7.3.2 任務2:文件排序 149

7.3.3 任務3:二次排序 153

7.4 本章小結 158

第8章 Spark SQL:結構化數據文件處理 159

8.1 Spark SQL概述 159

8.1.1 Spark SQL簡介 159

8.1.2 Spark SQL CLI配置 160

8.1.3 Spark SQL與Shell交互 161

8.2 DataFrame基礎操作 161

8.2.1 創建DataFrame對象 162

8.2.2 DataFrame查看數據 168

8.2.3 DataFrame查詢操作 171

8.2.4 DataFrame輸出操作 176

8.3 Spark SQL與MySQL的交互 177

8.4 本章小結 180

第9章 Spark Streaming:實時計算框架 181

9.1 Spark Streaming概述 181

9.1.1 Spark Streaming應用場景 181

9.1.2 流計算概述 181

9.1.3 Spark Streaming特性分析 184

9.2 DStream編程模型基礎 187

9.2.1 DStream概述 187

9.2.2 基本輸入源 188

9.2.3 轉換操作 196

9.2.4 輸出操作 201

9.3 編程實現——流數據過濾與分析 206

9.4 本章小結 210

第 10章 Spark GraphFrames:圖計算 211

10.1 圖計算概述 211

10.1.1 圖的基本概念 211

10.1.2 圖計算的應用 212

10.1.3 GraphFrames簡介 213

10.2 GraphFrames編程模型基礎 213

10.2.1 創建實例化圖 213

10.2.2 視圖和圖操作 214

10.2.3 保存和加載圖 216

10.3 編程實現——基於GraphFrames的網頁排名 216

10.3.1 準備數據集 217

10.3.2 GraphFrames實現算法 218

10.3.3 使用PageRank進行網頁排名 220

10.4 本章小結 220

第 11章 大數據生態常用工具介紹 221

11.1 Flume的安裝與使用 221

11.1.1 安裝及配置Flume 221

11.1.2 實例分析 223

11.2 Kafka的安裝與使用 225

11.2.1 Kafka相關概念 225

11.2.2 安裝Kafka 225

11.2.3 實例分析 225

11.3 Sqoop的安裝與使用 226

11.3.1 安裝及配置Sqoop 227

11.3.2 添加MySQL驅動程序 229

11.3.3 測試Sqoop與MySQL的連接 229

11.4 編程實現——編寫Spark程序使用Kafka數據源 230

11.4.1 Kafka準備工作 230

11.4.2 Spark準備工作 231

11.4.3 編寫代碼 233

11.5 本章小結 237