大數據技術基礎(第2版)

宋旭東 主編,劉月凡 宋亮 王立娟 李修飛 副主編,路文靜 路旭明 王春爽 於林林 參編

  • 出版商: 清華大學
  • 出版日期: 2024-08-01
  • 定價: $359
  • 售價: 8.5$305
  • 語言: 簡體中文
  • ISBN: 7302667306
  • ISBN-13: 9787302667308
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • 大數據技術基礎(第2版)-preview-1
  • 大數據技術基礎(第2版)-preview-2
  • 大數據技術基礎(第2版)-preview-3
大數據技術基礎(第2版)-preview-1

商品描述

"本書系統介紹了大數據基礎知識和相關技術,全書分為大數據基礎、大數據存儲與管理篇、大數據採集與預處理、大數據分析與挖掘、大數據平臺Hadoop實踐與應用案例5篇,共17章,主要內容包括大數據基本概念、大數據平臺Hadoop基礎、大數據存儲與管理基本概念、大數據分佈式文件系統HDFS、大數據分佈式數據庫系統HBase、大數據分佈式數據倉庫系統Hive、大數據採集與預處理技術、大數據採集工具、大數據計算模式、大數據MapReduce計算模型、大數據Spark計算模型、大數據Flink計算模型、大數據MapReduce基礎算法、大數據挖掘算法、Hadoop大數據平臺實踐、開敞式碼頭系泊纜力預測應用案例以及曙光XData大數據平臺及應用案例。全書提供了大量應用實例,且大多章後附有習題。本書特色在於融會貫通大數據基本概念與大數據技術及應用,很好地將大數據概念、技術及應用融合在一起,便於讀者更好地理解大數據基本概念,更快掌握大數據前沿技術及其應用。 本書適合作為高等院校電腦、軟件工程、信息管理等相關專業的本科生及研究生大數據技術課程的教學用書,也可作為相關IT工程技術人員的參考用書。 本書適合機器學習初學者,包括本科生、研究生以及未來有意向從事人工智能領域工作的人員學習使用。 "

目錄大綱

目〓〓錄

第1篇大數據基礎

第1章大數據基本概念

1.1大數據時代

1.1.1大數據有多大

1.1.2大數據的產生

1.1.3大數據的發展歷程

1.1.4大數據對科學研究的影響

1.1.5大數據對思維模式的影響

1.2大數據的定義與特徵

1.2.1大數據的定義

1.2.2大數據的數據特徵

1.3大數據的應用

1.3.1大數據在科研領域的應用

1.3.2大數據在交通領域的應用

1.3.3大數據在通信領域的應用

1.3.4大數據在醫療領域的應用

1.3.5大數據在金融領域的應用

1.3.6大數據在製造領域的應用

1.3.7大數據在體育領域的應用

1.3.8大數據在個性化生活領域的應用

1.3.9大數據在安全領域的應用

1.4大數據框架體系

1.4.1大數據基礎設施層

1.4.2大數據採集層

1.4.3大數據存儲層

1.4.4大數據處理層

1.4.5大數據交互展示層

1.4.6大數據應用層

1.5大數據關鍵技術

1.5.1數據採集與預處理技術

1.5.2數據存儲和管理技術

1.5.3數據分析與挖掘技術

1.5.4數據可視化技術

1.5.5數據安全和隱私保護技術

1.6大數據支撐技術

1.6.1雲計算

1.6.2物聯網

1.6.3人工智能

習題

第2章大數據平臺Hadoop基礎

2.1大數據平臺Hadoop概述

2.1.1Hadoop簡介

2.1.2Hadoop項目起源

2.1.3Hadoop發展歷程

2.1.4Hadoop特性

2.1.5Hadoop主要用途

2.2大數據平臺Hadoop原理

2.2.1分佈式計算原理

2.2.2MapReduce原理

2.2.3Yarn原理

2.3大數據平臺Hadoop組件

2.3.1HDFS組件

2.3.2MapReduce組件

2.3.3ZooKeeper組件

2.3.4Yarn組件

2.3.5HBase組件

2.3.6Hive組件

2.3.7Spark組件

2.3.8Mahout組件

2.3.9Flume組件

2.3.10Sqoop組件

2.3.11Kafka組件

2.3.12Pig組件

2.3.13Ambari組件

2.3.14Tez組件

2.3.15Common組件

習題

第2篇大數據存儲與管理

第3章大數據存儲與管理基本概念

3.1大數據的數據類型

3.1.1結構化數據

3.1.2半結構化數據

3.1.3非結構化數據

3.2數據管理技術的發展

3.2.1文件系統階段

3.2.2數據庫系統階段

3.2.3數據倉庫階段

3.2.4分佈式系統階段

3.3分佈式系統基礎理論

3.3.1CAP理論

3.3.2BASE思想

3.4NoSQL數據庫

3.4.1NoSQL數據庫的興起

3.4.2NoSQL數據庫與關系數據庫的比較

3.4.3NoSQL數據庫的4大類型

3.5大數據存儲與管理技術

3.5.1分佈式存儲技術

3.5.2虛擬化技術

3.5.3雲存儲技術

習題

第4章大數據分佈式文件系統HDFS

4.1HDFS概述

4.1.1HDFS簡介

4.1.2HDFS設計特點

4.2HDFS工作原理

4.2.1HDFS體系結構

4.2.2HDFS工作組件

4.3HDFS工作流程

4.3.1讀數據的過程

4.3.2寫數據的過程

4.4HDFS基本操作

4.4.1HDFS文件操作

4.4.2HDFS管理命令

4.5HDFS編程接口

4.5.1HDFS常用Java API

4.5.2HDFS API編程實例

習題

第5章大數據分佈式數據庫系統HBase

5.1HBase概述

5.1.1HBase簡介

5.1.2HBase特性

5.1.3HBase與傳統關系數據庫對比

5.1.4HBase應用場景

5.2HBase數據模型

5.2.1HBase數據模型術語

5.2.2HBase數據邏輯模型

5.2.3HBase數據物理模型

5.3HBase工作原理

5.3.1HBase體系結構

5.3.2HBase工作組件

5.4HBase安裝

5.4.1下載HBase

5.4.2安裝HBase

5.4.3啟動HBase

5.4.4關閉HBase

5.5HBase操作命令

5.5.1HBase表操作

5.5.2HBase數據操作

5.6HBase編程接口

5.6.1HBase常用Java API

5.6.2HBase API編程實例

習題

第6章大數據分佈式數據倉庫系統Hive

6.1Hive概述

6.1.1Hive特性

6.1.2Hive工作原理

6.1.3Hive執行流程

6.2Hive數據類型及數據模型

6.2.1Hive數據類型

6.2.2Hive數據模型

6.3安裝Hive

6.3.1下載Hive

6.3.2安裝配置Hive

6.3.3安裝MySQL

6.3.4配置MySQL允許Hive接入

6.3.5啟動Hive

6.3.6關閉Hive

6.4Hive SQL

6.4.1DDL語句

6.4.2DML語句

6.4.3DQL語句

6.4.4Hive操作實例

6.5Hive訪問接口

6.5.1Hive CLI訪問接口

6.5.2JDBC訪問接口

習題

第3篇大數據採集與預處理

第7章大數據採集與預處理技術

7.1數據抽取、轉換、加載技術

7.1.1ETL概述

7.1.2數據抽取

7.1.3數據轉換

7.1.4數據加載

7.1.5ETL工具

7.2數據爬蟲技術

7.2.1爬蟲流程

7.2.2爬蟲分類

7.2.3大數據爬蟲技術

7.3數據預處理技術

7.3.1數據清理

7.3.2數據集成

7.3.3數據變換

7.3.4數據歸約

習題

第8章大數據採集工具

8.1Sqoop關系型大數據採集系統

8.1.1Sqoop簡介

8.1.2Sqoop工作原理

8.2Flume日誌大數據採集系統

8.2.1Flume簡介

8.2.2Flume工作原理

8.2.3Flume的配置與啟動

8.3Kafka消息隊列大數據採集系統

8.3.1Kafka簡介

8.3.2Kafka工作原理

8.3.3Kafka的配置與啟動

8.4Nutch分佈式大數據爬蟲系統

8.4.1Nutch簡介

8.4.2Nutch工作原理

習題

第4篇大數據分析與挖掘

第9章大數據計算模式

9.1大數據批處理

9.1.1大數據批處理概述

9.1.2大數據批處理常用組件

9.2大數據查詢分析計算

9.2.1大數據查詢分析計算概述

9.2.2大數據查詢分析計算組件

9.3大數據流計算

9.3.1大數據流計算概述

9.3.2大數據流計算組件

9.4大數據迭代計算

9.4.1大數據迭代計算概述

9.4.2迭代計算組件

9.5大數據圖計算

9.5.1大數據圖計算概述

9.5.2圖計算組件

習題

第10章大數據MapReduce計算模型

10.1MapReduce概述

10.1.1MapReduce簡介

10.1.2MapReduce由來

10.1.3MapReduce主要功能

10.1.4MapReduce技術特徵

10.2MapReduce模型框架

10.2.1MapReduce設計思想

10.2.2MapReduce模型架構

10.3MapReduce數據處理過程

10.3.1MapReduce運行原理

10.3.2數據輸入輸出流程

10.4MapReduce程序執行過程

10.4.1作業提交

10.4.2作業初始化

10.4.3作業分配

10.4.4任務執行

10.4.5過程和狀態更新

10.4.6作業完成

10.5MapReduce編程接口

10.5.1數據讀入

10.5.2Mapper類和Reducer類

10.5.3數據處理

10.5.4數據輸出

10.6MapReduce實例分析

10.6.1WordCount MapReduce設計

10.6.2WordCount編程實現

習題

第11章大數據Spark計算模型

11.1Spark概述

11.1.1Spark產生

11.1.2Spark的相關概念及其組件

11.1.3Spark特性

11.2Spark工作原理

11.2.1RDD原理

11.2.2Spark工作流程

11.2.3Spark集群架構及運行模式

11.2.4Spark Streaming工作原理

11.3Spark訪問接口

11.3.1Spark訪問接口概述

11.3.2SparkContext 訪問接口

11.3.3RDD 訪問接口

11.4Spark實例分析

11.4.1Spark Shell WordCount編程實現

11.4.2Scala WordCount編程實現

11.4.3Java WordCount編程實現

習題

第12章大數據Flink計算模型

12.1Flink概述

12.1.1Flink簡介

12.1.2Flink的由來

12.1.3Flink流處理

12.1.4Flink的核心特性

12.2Flink工作原理

12.2.1Flink的計算框架

12.2.2Flink的體系結構

12.2.3Flink的運行架構

12.3Flink編程接口

12.3.1Flink的編程模型

12.3.2Flink的編程結構

12.4Flink實例分析

12.4.1Scala WordCount編程實現

12.4.2Java WordCount編程實現

習題

第13章大數據MapReduce基礎算法

13.1關系代數運算

13.1.1關系代數運算規則

13.1.2關系代數運算的MapReduce設計與實現

13.2矩陣乘法

13.2.1矩陣乘法原理

13.2.2矩陣乘法MapReduce設計

13.2.3矩陣乘法MapReduce實現

習題

第14章大數據挖掘算法

14.1大數據關聯分析算法

14.1.1Apriori算法簡介

14.1.2Apriori算法MapReduce設計

14.1.3Apriori算法MapReduce實現

14.2大數據KNN分類算法

14.2.1KNN分類算法簡介

14.2.2KNN算法MapReduce設計

14.2.3KNN算法MapReduce實現

14.3大數據KMeans聚類算法

14.3.1KMeans聚類算法簡介

14.3.2基於MapReduce的KMeans算法的設計

14.3.3基於MapReduce的KMeans算法的實現

14.4大數據回歸分析算法

14.4.1大數據回歸分析算法簡介

14.4.2基於MapReduce的多元回歸分析算法設計

14.4.3基於MapReduce的多元回歸分析算法的實現

習題

第5篇大數據平臺Hadoop實踐與應用案例

第15章Hadoop大數據平臺實踐

15.1Hadoop系統的安裝與配置

15.1.1安裝前的準備工作

15.1.2Linux虛擬機的安裝

15.1.3安裝和配置JDK

15.1.4下載安裝Hadoop

15.1.5SSH免密登錄

15.1.6虛擬機克隆

15.1.7Hadoop運行

15.1.8查看集群狀態 

15.2Hadoop平臺基本操作

15.2.1Hadoop啟動與關閉命令

15.2.2Hadoop文件操作

15.2.3Hadoop程序運行命令

15.3Hadoop平臺程序開發過程

15.3.1開發環境配置

15.3.2程序開發流程

習題

第16章開敞式碼頭系泊纜力預測應用案例

16.1開敞式碼頭系泊纜力預測背景描述

16.1.1開敞式碼頭系泊作業背景描述

16.1.2開敞式碼頭系泊纜力預測背景

16.2大數據系泊纜力相似性查詢預測方法

16.2.1模糊相似性查詢基本方法

16.2.2系泊纜力相似性查詢預測模型

16.3相似性查詢預測方法MapReduce設計

16.3.1相似性查詢預測方法Map設計

16.3.2相似性查詢預測方法Reduce設計

16.4相似性查詢預測方法MapReduce實現

16.4.1系泊纜力預測結果展示

16.4.2系泊纜力預測結果分析

第17章曙光XData大數據平臺及應用案例

17.1曙光XData大數據平臺簡介

17.1.1曙光XData大數據平臺概述

17.1.2曙光XData大數據平臺特點及應用

17.2曙光大數據平臺架構及關鍵技術

17.2.1曙光XData大數據平臺架構

17.2.2曙光XData大數據平臺關鍵技術

17.3曙光XData大數據平臺組件

17.3.1曙光XData大數據集成與數據治理組件

17.3.2曙光XData大數據存儲與數據計算組件

17.3.3曙光XData大數據分析與數據智能組件

17.3.4曙光XData大數據可視化分析組件

17.3.5曙光XData大數據安全管控與管理運維組件

17.4曙光XData大數據平臺操作實踐

17.4.1曙光XData大數據平臺安裝與配置概述

17.4.2曙光XData大數據平臺基本操作

17.5基於曙光XData大數據平臺的智能交通應用案例

17.5.1曙光XData智能交通應用項目背景

17.5.2曙光XData智能交通應用方案設計

17.5.3曙光XData智能交通功能實現及應用效果

參考文獻