大數據分析技術基礎

榮垂田 著

  • 出版商: 機械工業
  • 出版日期: 2021-08-01
  • 定價: $234
  • 售價: 7.5$176
  • 語言: 簡體中文
  • 頁數: 190
  • 裝訂: 平裝
  • ISBN: 711168558X
  • ISBN-13: 9787111685586
  • 相關分類: 大數據 Big-data資料科學
  • 立即出貨 (庫存 < 3)

商品描述

大數據已發展成為一個學科。
本書作為該領域的入門教材,在內容上盡可能覆蓋大數據分析的基本理論和基本技術。
全書共9章:
第1章介紹大數據發展的背景和相關的理論知識;
第2章介紹大數據的採集方法,以及數據採集案例;
第3章介紹大數據處理平台Hadoop,以及Hadoop在不同系統平台上的安裝和部署方法;
第4章介紹MapReduce編程方法和開發工具,以及MapReduce編程實例;
第5章介紹HDFS及其相關的操作方法;
第6章介紹HBase及其相關的操作方法;
第7章介紹Hive及其在不同平台上的安裝和部署方法、應用案例;
第8章介紹大數據處理平台Spark,以及Spark編程實例;
第9章介紹NoSQL數據庫,以及典型的NoSQL數據庫系統。

本書可作為高等學校計算機、數據科學與大數據技術及人工智能或相關專業的本科生或研究生教材,
也可供對大數據分析感興趣的工程技術人員閱讀參考。

目錄大綱

前  言
第1章 大數據概述 1
11  大數據時代 1
111  大數據的發展歷程 1
112  大數據發展的內在驅動力 2
12  大數據的相關概念 6
121   大數據的5V特徵 6
122   大數據的相關定義 6
13  大數據的影響 8
14  大數據分析 9
141  大數據分析的特點 9
142  大數據分析的流程 9
143  大數據分析的核心技術 10
144  大數據分析的計算模式 11
15  大數據的行業應用 12
151  社交大數據 12
152  醫療大數據 13
153  房地產大數據 13
16  大數據與其他領域的關係 14
161   雲計算、大數據和物聯網 14
162  大數據與人工智能 16
習題 16

第2章  大數據的採集 18
21  大數據的來源 18
22  大數據採集工具 19
23  大數據預處理 19
24  Nutch應用案例 20
241  Nutch的安裝和配置 21
242  Nutch爬取與內容解析 23
25  Scrapy應用案例 25
251  Scrapy框架概述 25
252  Scrapy的安裝和配置 27
253  Scrapy爬取實例 27
254  總結 35
習題 36

第3章  大數據處理平台
Hadoop 37
31  Hadoop概述 37
311  Hadoop的發展歷程 37
312  Hadoop的體系結構 38
313  Hadoop的特點 39
32  Hadoop的安裝和配置 40
321  準備工作 40
322  Hadoop軟件的安裝和配置 42
習題 64
第4章  MapReduce編程 66
41  MapReduce概述 66
42  開發工具IntelliJ IDEA 67
43  編程實例 71
431  MapReduce經典入門程序——
字數統計(WordCount) 71
432  MapReduce經典進階程序 81
433  在集群上運行MapReduce
程序 87
習題 93

第5章  HDFS 94
51  HDFS概述 94
52  HDFS的架構及特點 95
53  文件格式及其訪問方法 96
531  TextFile 97
532  SequenceFile 99
533  MapFile 102
534  RCFile 106
54  分佈式緩存 109
55  HDFS Shell命令 112
56  HDFS的其他訪問方式 116
習題 122

第6章  HBase 123
61  HBase概述 123
62  HBase的數據模型 124
63  HBase的邏輯結構 125
64  HBase的架構及特點 126
65  HBase的安裝與配置 129
66  HBase Shell命令 135
67  使用Java API訪問 HBase 140
習題 145

第7章  Hive 146
71  Hive概述 146
72  在本地安裝運行Hive 147
721  下載源文件 147
722  修改配置文件 148
723  啟動Hive 150
724  創建數據庫和文件夾 152
725  建表及加載數據 152
726  測試Hive 153
73  在Linux中安裝Hive 155
731  機器準備 155
732  Hive安裝包準備 155
733  修改Hive配置文件 156
734  修改Linux環境變量 157
735  啟動Hive和相關測試 158
習題 159

第8章  大數據處理平台Spark 160
81  Spark概述 160
811  Spark的概念 160
812  學習Spark的原因 160
813  Spark組件 161
814  Spark任務執行過程 162
82  Spark本地(Windows)
安裝 163
821  安裝Scala 163
822  安裝Hadoop 164
823  安裝Spark 165
83  Spark集群安裝 166
84  Spark運行實例 169
841  蒙特·卡羅算法求π 169
842  WordCount程序 169
習題 170

第9章  NoSQL數據庫 171
91  NoSQL數據庫概述 171
911  NoSQL的產生 171
912  互聯網對關係數據庫提出的
新要求 172
913  NoSQL數據庫的分類 172
92  MongoDB 173
921  MongoDB概述 173
922  MongoDB的優勢 173
923  MongoDB的安裝 174
924  MongoDB使用實例 178
93  Redis 180
931  Redis概述 180
932  Redis的應用場景 181
933  Redis的數據類型及操作 181
934  Redis的安裝 182
935  Redis使用實例 184
94  Memcached 185
941  Memcached概述 185
942  Memcached的應用場景 186
943  Memcached的數據類型
及操作 186
944  Memcached的安裝 187
945  Memcached使用實例 188
習題 189
參考文獻 190