大數據導論(第2版)(微課版)
安俊秀 吳錫 李雨航 薛中華 王鑫 袁明坤
- 出版商: 人民郵電
- 出版日期: 2026-05-01
- 定價: $299
- 售價: $298
- 語言: 簡體中文
- 頁數: 172
- ISBN: 7115681015
- ISBN-13: 9787115681010
-
相關分類:
大數據 Big-data
尚未上市,歡迎預購
相關主題
商品描述
本書對大數據知識體系進行了全面且深入的總結與講解。內容涵蓋大數據概述,深入剖析大數據的來源、定義、數據特征、類型、價值及發展趨勢;探討大數據與雲計算、物聯網的緊密關系,包括雲計算的多種部署模式和服務模式,以及它們與大數據在體系架構方面的關聯;從產業結構出發,詳細闡述大數據技術,如采集、預處理、可視化等技術;介紹大數據的硬件架構——集群,以及開發與計算技術、存儲技術。此外,書中還聚焦大數據分析,包含多種數據分析技術及基於機器學習的分析方法,同時探討大數據與人工智能的關系、人工智能核心技術及應用。在大數據安全與治理方面,介紹了安全面臨的挑戰、技術手段以及數據治理的相關內容。 本書可以作為高等院校計算機、軟件工程、數據科學與大數據技術等專業大數據導論課程的教材,也可作為普通讀者了解大數據及其相關技術的參考書。
作者簡介
安俊秀,成都信息工程大學教授,碩士生導師,高級訪問學者。軟件自動生成與智能服務四川省重點實驗室學術帶頭人(領域知識本體和大數據方向),並行計算與大數據研究所負責人。 安俊秀教授一直工作在教學一線,近5年教學工作量合計為1060學時,超額完成任務,主講課程有:雲計算與大數據、人工智能技術與應用、Python程序設計等,教學質量評價均為優。多次作為主講嘉賓參與高水平的培訓講座,積極將最新科研成果與行業趨勢融入課堂,顯著提升了教學質量與成效。 近五年編著或參與完成專著或教材11部,均由國家級出版社出版,且主要方向為AI與大數據,在社科、教育、文化、出版等社會領域取得創新性、突破性成果。其中,《Hadoop大數據處理技術基礎與實踐(第2版)(微課版)》獲國家“十四五”規劃教材殊榮。 安俊秀教授深化產學研融合,積極投身產業服務,與四川賽科安全技術有限公司實現技術合作,成功將教研成果應用於消防火災自動報警系統及安全監控領域,助力企業實現年度營業收入的大幅增長。榮獲省科技進步獎、省社科獎等多項榮譽。
目錄大綱
第 1 章 大數據概述
1.1 什麼是大數據................................................ 1
1.1.1 大數據的來源........................................1
1.1.2 大數據的定義........................................4
1.1.3 從信息技術轉向數據技術....................4
1.2 大數據的特征及對科學研究的影響.............. 5
1.2.1 大數據的特征........................................5
1.2.2 大數據對科學研究的影響....................6
1.3 大數據的類型................................................ 8
1.4 大數據的價值及相關技術........................... 10
1.4.1 大數據的可用性及衍生價值 ............ 10
1.4.2 大數據存儲及處理技術..................... 11
1.5 大數據的發展趨勢...................................... 11
習題 ..................................................................... 13
第 2 章 大數據與雲計算
2.1 雲計算概述................................................. 14
2.1.1 雲計算的提出..................................... 14
2.1.2 雲計算的定義..................................... 15
2.1.3 雲計算的概念模型............................. 16
2.1.4 雲計算的特點..................................... 16
2.2 雲計算的主要部署模式............................... 17
2.2.1 公有雲................................................. 18
2.2.2 私有雲................................................. 18
2.2.3 混合雲..................................................19
2.2.4 社區雲..................................................19
2.3 雲計算的主要服務模式............................... 20
2.3.1 基礎設施即服務.................................20
2.3.2 平臺即服務..........................................22
2.3.3 軟件即服務..........................................22
2.3.4 3 種服務模式之間的關系..................22
2.4 雲計算與大數據體系架構的關系................ 23
2.4.1 雲計算基礎設施—
Google 平臺.......................................23
2.4.2 大數據基礎設施—
Hadoop 平臺......................................24
2.5 物聯網和雲計算延伸概念........................... 25
2.5.1 認識物聯網..........................................25
2.5.2 邊緣計算..............................................26
2.5.3 霧計算..................................................27
2.5.4 隱私計算..............................................27
2.5.5 物聯網、大數據和雲計算
之間的關系.........................................28
習題...................................................................... 28
第 3 章 從產業結構來探索大數據技術
3.1 大數據產業結構概述................................... 29
3.2 大數據的解決方案...................................... 30
3.2.1 大數據的產生、采集與處理方式.............................................31
3.2.2 大數據處理的基本流程及
相應技術............................................. 32
3.3 大數據采集技術..........................................35
3.3.1 大數據采集概述................................. 35
3.3.2 日誌采集系統—Flume ..................... 36
3.3.3 消息采集系統—Kafka....................... 37
3.3.4 Scrapy 網絡爬蟲框架........................ 38
3.4 大數據預處理技術......................................40
3.4.1 數據預處理......................................... 41
3.4.2 數據清洗............................................. 42
3.4.3 數據集成............................................. 43
3.4.4 數據歸約............................................. 44
3.5 數據可視化技術..........................................45
3.5.1 數據可視化的概念............................. 45
3.5.2 常見數據可視化圖表......................... 46
3.5.3 大數據可視化工具............................. 49
3.5.4 大數據可視化技術的
發展方向............................................. 50
習題......................................................................51
第 4 章 大數據的硬件架構——集群
4.1 大數據產業結構概述...................................52
4.1.1 並行計算機的發展............................. 52
4.1.2 計算機食物鏈..................................... 55
4.2 集群與大數據技術......................................56
4.3 集群系統的概念及分類...............................58
4.3.1 集群系統的基本概念......................... 58
4.3.2 集群系統的分類................................. 59
4.4 集群的結構模型..........................................60
4.5 集群文件系統..............................................61
4.6 集群的容器化技術......................................63
習題......................................................................64
第 5 章 大數據開發與計算技術
5.1 Hadoop—分布式大數據系統.....................65
5.1.1 Hadoop 概述......................................65
5.1.2 Hadoop 架構......................................66
5.1.3 Hadoop 生態系統..............................70
5.2 Spark—大規模數據實時處理系統..............71
5.2.1 Spark 概述 ..........................................71
5.2.2 彈性分布式數據集.............................75
5.2.3 Spark 擴展功能..................................76
5.3 Storm—基於拓撲的流數據實時
計算系統.....................................................78
5.3.1 Storm 概述..........................................78
5.3.2 Storm 的組成結構..............................79
5.3.3 Storm-Yarn 概述.................................80
5.4 Flink——分布式實時處理引擎....................81
5.4.1 Flink 概述............................................81
5.4.2 Flink 的基本框架和原理....................81
5.4.3 Flink 的運行架構................................83
5.5 Hadoop、Spark、Storm 與
Flink 的比較................................................85
習題......................................................................87
第 6 章 大數據存儲技術
6.1 數據存儲概述..............................................88
6.2 分布式文件系統..........................................90
6.2.1 分布式文件系統的設計思路.............90
6.2.2 早期的分布式文件系統.....................92
6.2.3 大數據環境下分布式文件系統的優化思路.............................................92
6.3 結構化大數據的存儲—Hive ..........................94
6.3.1 Hive 簡介............................................ 94
6.3.2 Hive 架構............................................ 94
6.3.3 Hive 數據模型與存儲........................ 96
6.4 半結構化大數據的存儲—HBase................ 97
6.4.1 HBase 簡介........................................ 97
6.4.2 HBase 數據模型................................ 97
6.4.3 存儲架構............................................. 99
6.5 雲存儲技術............................................... 105
6.5.1 雲存儲的概念及特性....................... 105
6.5.2 雲存儲系統的結構模型................... 106
6.5.3 雲存儲的應用................................... 108
習題 ................................................................... 109
第 7 章 大數據分析
7.1 大數據分析的重要性及認識數據.............. 110
7.1.1 大數據分析的重要性....................... 110
7.1.2 認識數據........................................... 111
7.2 統計數據分析............................................ 113
7.3 Excel 數據分析技術.................................. 115
7.3.1 Excel 數據分析概述........................ 115
7.3.2 使用 Excel 工具和函數進行數據分析........................................... 116
7.4 Power BI 數據分析技術............................ 117
7.4.1 Power BI 數據分析概覽.................. 117
7.4.2 Power BI 基本操作.......................... 118
7.5 使用 NumPy 與 Pandas 進行數據分析................................................... 118
7.5.1 庫功能概述....................................... 118
7.5.2 核心數據結構................................... 119
7.5.3 數據操作與分析............................... 119
7.6 基於機器學習的數據分析......................... 120
7.6.1 機器學習簡介................................... 120
7.6.2 機器學習的主要用途....................... 122
7.6.3 機器學習的分類...............................123
7.6.4 分類分析............................................124
7.7 基於圖、自然語言的數據分析..................127
7.7.1 基於圖的數據分析...........................127
7.7.2 基於自然語言的數據分析...............128
7.8 基於大模型的數據分析.............................129
7.8.1 AIGC..................................................129
7.8.2 DeepSeek.........................................130
7.8.3 ChatGPT ...........................................131
習題....................................................................132
第 8 章 大數據與人工智能
8.1 人工智能的概念及分類.............................134
8.2 人工智能的發展史....................................137
8.3 限制人工智能發展的因素.........................139
8.4 大數據與人工智能的關系.........................140
8.5 人工智能核心技術概述.............................142
8.5.1 深度學習............................................142
8.5.2 卷積神經網絡....................................143
8.5.3 圖像處理............................................144
8.6 人工智能核心技術應用.............................144
8.7 生成對抗網絡的創新應用.........................146
8.8 大模型的影響與應用.................................147
習題....................................................................148
第 9 章 大數據安全與治理
9.1 大數據安全概述........................................149
9.1.1 大數據安全的定義和重要性...........149
9.1.2 大數據安全面臨的挑戰...................150
9.1.3 大數據安全的基本原則...................151
9.2 數據安全技術.............................152
9.2.1 訪問控制與認證............................... 152
9.2.2 數據完整性保護............................... 155
9.2.3 入侵檢測與防禦............................... 158
9.2.4 數據備份與恢復............................... 162
9.3 數據治理...................................................165
9.3.1 數據治理的定義與目標................... 165
9.3.2 數據治理框架................................... 166
9.3.3 數據質量管理...................................169
9.4 大數據安全與治理的未來發展..................171
9.4.1 新興技術對大數據安全的影響 ...................................................171
9.4.2 大數據安全與治理的未來趨勢 ...................................................172
習題...................................................................172

