大數據導論(第2版)(微課版)

安俊秀 吳錫 李雨航 薛中華 王鑫 袁明坤

  • 出版商: 人民郵電
  • 出版日期: 2026-05-01
  • 定價: $299
  • 售價: $298
  • 語言: 簡體中文
  • 頁數: 172
  • ISBN: 7115681015
  • ISBN-13: 9787115681010
  • 相關分類: 大數據 Big-data
  • 尚未上市,歡迎預購

  • 大數據導論(第2版)(微課版)-preview-1
大數據導論(第2版)(微課版)-preview-1

相關主題

商品描述

本書對大數據知識體系進行了全面且深入的總結與講解。內容涵蓋大數據概述,深入剖析大數據的來源、定義、數據特征、類型、價值及發展趨勢;探討大數據與雲計算、物聯網的緊密關系,包括雲計算的多種部署模式和服務模式,以及它們與大數據在體系架構方面的關聯;從產業結構出發,詳細闡述大數據技術,如采集、預處理、可視化等技術;介紹大數據的硬件架構——集群,以及開發與計算技術、存儲技術。此外,書中還聚焦大數據分析,包含多種數據分析技術及基於機器學習的分析方法,同時探討大數據與人工智能的關系、人工智能核心技術及應用。在大數據安全與治理方面,介紹了安全面臨的挑戰、技術手段以及數據治理的相關內容。 本書可以作為高等院校計算機、軟件工程、數據科學與大數據技術等專業大數據導論課程的教材,也可作為普通讀者了解大數據及其相關技術的參考書。

作者簡介

安俊秀,成都信息工程大學教授,碩士生導師,高級訪問學者。軟件自動生成與智能服務四川省重點實驗室學術帶頭人(領域知識本體和大數據方向),並行計算與大數據研究所負責人。 安俊秀教授一直工作在教學一線,近5年教學工作量合計為1060學時,超額完成任務,主講課程有:雲計算與大數據、人工智能技術與應用、Python程序設計等,教學質量評價均為優。多次作為主講嘉賓參與高水平的培訓講座,積極將最新科研成果與行業趨勢融入課堂,顯著提升了教學質量與成效。 近五年編著或參與完成專著或教材11部,均由國家級出版社出版,且主要方向為AI與大數據,在社科、教育、文化、出版等社會領域取得創新性、突破性成果。其中,《Hadoop大數據處理技術基礎與實踐(第2版)(微課版)》獲國家“十四五”規劃教材殊榮。 安俊秀教授深化產學研融合,積極投身產業服務,與四川賽科安全技術有限公司實現技術合作,成功將教研成果應用於消防火災自動報警系統及安全監控領域,助力企業實現年度營業收入的大幅增長。榮獲省科技進步獎、省社科獎等多項榮譽。

目錄大綱

第 1 章 大數據概述

1.1 什麼是大數據................................................ 1

1.1.1 大數據的來源........................................1

1.1.2 大數據的定義........................................4

1.1.3 從信息技術轉向數據技術....................4

1.2 大數據的特征及對科學研究的影響.............. 5

1.2.1 大數據的特征........................................5

1.2.2 大數據對科學研究的影響....................6

1.3 大數據的類型................................................ 8

1.4 大數據的價值及相關技術........................... 10

1.4.1 大數據的可用性及衍生價值 ............ 10

1.4.2 大數據存儲及處理技術..................... 11

1.5 大數據的發展趨勢...................................... 11

習題 ..................................................................... 13

第 2 章 大數據與雲計算

2.1 雲計算概述................................................. 14

2.1.1 雲計算的提出..................................... 14

2.1.2 雲計算的定義..................................... 15

2.1.3 雲計算的概念模型............................. 16

2.1.4 雲計算的特點..................................... 16

2.2 雲計算的主要部署模式............................... 17

2.2.1 公有雲................................................. 18

2.2.2 私有雲................................................. 18

2.2.3 混合雲..................................................19

2.2.4 社區雲..................................................19

2.3 雲計算的主要服務模式............................... 20

2.3.1 基礎設施即服務.................................20

2.3.2 平臺即服務..........................................22

2.3.3 軟件即服務..........................................22

2.3.4 3 種服務模式之間的關系..................22

2.4 雲計算與大數據體系架構的關系................ 23

2.4.1 雲計算基礎設施—

Google 平臺.......................................23

2.4.2 大數據基礎設施—

Hadoop 平臺......................................24

2.5 物聯網和雲計算延伸概念........................... 25

2.5.1 認識物聯網..........................................25

2.5.2 邊緣計算..............................................26

2.5.3 霧計算..................................................27

2.5.4 隱私計算..............................................27

2.5.5 物聯網、大數據和雲計算

之間的關系.........................................28

習題...................................................................... 28

第 3 章 從產業結構來探索大數據技術

3.1 大數據產業結構概述................................... 29

3.2 大數據的解決方案...................................... 30

3.2.1 大數據的產生、采集與處理方式.............................................31

3.2.2 大數據處理的基本流程及

相應技術............................................. 32

3.3 大數據采集技術..........................................35

3.3.1 大數據采集概述................................. 35

3.3.2 日誌采集系統—Flume ..................... 36

3.3.3 消息采集系統—Kafka....................... 37

3.3.4 Scrapy 網絡爬蟲框架........................ 38

3.4 大數據預處理技術......................................40

3.4.1 數據預處理......................................... 41

3.4.2 數據清洗............................................. 42

3.4.3 數據集成............................................. 43

3.4.4 數據歸約............................................. 44

3.5 數據可視化技術..........................................45

3.5.1 數據可視化的概念............................. 45

3.5.2 常見數據可視化圖表......................... 46

3.5.3 大數據可視化工具............................. 49

3.5.4 大數據可視化技術的

發展方向............................................. 50

習題......................................................................51

第 4 章 大數據的硬件架構——集群

4.1 大數據產業結構概述...................................52

4.1.1 並行計算機的發展............................. 52

4.1.2 計算機食物鏈..................................... 55

4.2 集群與大數據技術......................................56

4.3 集群系統的概念及分類...............................58

4.3.1 集群系統的基本概念......................... 58

4.3.2 集群系統的分類................................. 59

4.4 集群的結構模型..........................................60

4.5 集群文件系統..............................................61

4.6 集群的容器化技術......................................63

習題......................................................................64

第 5 章 大數據開發與計算技術

5.1 Hadoop—分布式大數據系統.....................65

5.1.1 Hadoop 概述......................................65

5.1.2 Hadoop 架構......................................66

5.1.3 Hadoop 生態系統..............................70

5.2 Spark—大規模數據實時處理系統..............71

5.2.1 Spark 概述 ..........................................71

5.2.2 彈性分布式數據集.............................75

5.2.3 Spark 擴展功能..................................76

5.3 Storm—基於拓撲的流數據實時

計算系統.....................................................78

5.3.1 Storm 概述..........................................78

5.3.2 Storm 的組成結構..............................79

5.3.3 Storm-Yarn 概述.................................80

5.4 Flink——分布式實時處理引擎....................81

5.4.1 Flink 概述............................................81

5.4.2 Flink 的基本框架和原理....................81

5.4.3 Flink 的運行架構................................83

5.5 Hadoop、Spark、Storm 與

Flink 的比較................................................85

習題......................................................................87

第 6 章 大數據存儲技術

6.1 數據存儲概述..............................................88

6.2 分布式文件系統..........................................90

6.2.1 分布式文件系統的設計思路.............90

6.2.2 早期的分布式文件系統.....................92

6.2.3 大數據環境下分布式文件系統的優化思路.............................................92

6.3 結構化大數據的存儲—Hive ..........................94

6.3.1 Hive 簡介............................................ 94

6.3.2 Hive 架構............................................ 94

6.3.3 Hive 數據模型與存儲........................ 96

6.4 半結構化大數據的存儲—HBase................ 97

6.4.1 HBase 簡介........................................ 97

6.4.2 HBase 數據模型................................ 97

6.4.3 存儲架構............................................. 99

6.5 雲存儲技術............................................... 105

6.5.1 雲存儲的概念及特性....................... 105

6.5.2 雲存儲系統的結構模型................... 106

6.5.3 雲存儲的應用................................... 108

習題 ................................................................... 109

第 7 章 大數據分析

7.1 大數據分析的重要性及認識數據.............. 110

7.1.1 大數據分析的重要性....................... 110

7.1.2 認識數據........................................... 111

7.2 統計數據分析............................................ 113

7.3 Excel 數據分析技術.................................. 115

7.3.1 Excel 數據分析概述........................ 115

7.3.2 使用 Excel 工具和函數進行數據分析........................................... 116

7.4 Power BI 數據分析技術............................ 117

7.4.1 Power BI 數據分析概覽.................. 117

7.4.2 Power BI 基本操作.......................... 118

7.5 使用 NumPy 與 Pandas 進行數據分析................................................... 118

7.5.1 庫功能概述....................................... 118

7.5.2 核心數據結構................................... 119

7.5.3 數據操作與分析............................... 119

7.6 基於機器學習的數據分析......................... 120

7.6.1 機器學習簡介................................... 120

7.6.2 機器學習的主要用途....................... 122

7.6.3 機器學習的分類...............................123

7.6.4 分類分析............................................124

7.7 基於圖、自然語言的數據分析..................127

7.7.1 基於圖的數據分析...........................127

7.7.2 基於自然語言的數據分析...............128

7.8 基於大模型的數據分析.............................129

7.8.1 AIGC..................................................129

7.8.2 DeepSeek.........................................130

7.8.3 ChatGPT ...........................................131

習題....................................................................132

第 8 章 大數據與人工智能

8.1 人工智能的概念及分類.............................134

8.2 人工智能的發展史....................................137

8.3 限制人工智能發展的因素.........................139

8.4 大數據與人工智能的關系.........................140

8.5 人工智能核心技術概述.............................142

8.5.1 深度學習............................................142

8.5.2 卷積神經網絡....................................143

8.5.3 圖像處理............................................144

8.6 人工智能核心技術應用.............................144

8.7 生成對抗網絡的創新應用.........................146

8.8 大模型的影響與應用.................................147

習題....................................................................148

第 9 章 大數據安全與治理

9.1 大數據安全概述........................................149

9.1.1 大數據安全的定義和重要性...........149

9.1.2 大數據安全面臨的挑戰...................150

9.1.3 大數據安全的基本原則...................151

9.2 數據安全技術.............................152

9.2.1 訪問控制與認證............................... 152

9.2.2 數據完整性保護............................... 155

9.2.3 入侵檢測與防禦............................... 158

9.2.4 數據備份與恢復............................... 162

9.3 數據治理...................................................165

9.3.1 數據治理的定義與目標................... 165

9.3.2 數據治理框架................................... 166

9.3.3 數據質量管理...................................169

9.4 大數據安全與治理的未來發展..................171

9.4.1 新興技術對大數據安全的影響 ...................................................171

9.4.2 大數據安全與治理的未來趨勢 ...................................................172

習題...................................................................172