大數據技術導論

程顯毅著

  • 出版商: 機械工業
  • 出版日期: 2019-04-01
  • 定價: $234
  • 售價: 7.5$176
  • 語言: 簡體中文
  • 頁數: 172
  • 裝訂: 平裝
  • ISBN: 7111621719
  • ISBN-13: 9787111621713
  • 相關分類: 大數據 Big-data
  • 立即出貨

買這商品的人也買了...

商品描述

本書以面向應用、面向實戰為指導思想,緊扣企業技術人才培養的特點,
在知識點講解和實驗中避免複雜的理論,使讀者能快速上手體驗、
驗證大數據處理的魅力,以激發讀者的學習興趣。
本書覆蓋了大數據生命週期中的主要技術要點,全書共8章,
章介紹大數據的產生和特點及思維的變革,第2章了解大數據生態系統,
第3~7章按照大數據的生命週期,分別討論大數據採集與預處理、
大數據管理、大數據分析、大數據可視化、大數據應用的基本原理和方法,
第8章討論大數據安全面臨的挑戰。
本書可作為本科、高職院校大數據技術或數據科學課程的參考書或教材,
也可供數據科學相關技術人員閱讀。

目錄大綱

目錄

前言
第1章概論1
1.1揭秘大數據1
1.1.1大數據產生歷史必然1
1.1.2大數據概念和特徵2
1.1.3大數據生命週期3
1.1.4大數據與物聯網、雲計算、人工智能5
1.1.5大數據時代的八個重大變革5
1.2 Linux系統概述7
1.2.1 Linux版本7
1.2.2 Linux系統目錄結構7
1.2.3文本編輯器vi9
1.2.4文件權限解讀10
1.2. 5 Linux系統常用命令11
習題112
實驗報告1 Linux實驗13
第2章大數據生態系統15
2.1認識Hadoop15
2.2 HDFS16
2.2.1 HDFS體系結構16
2.2.2 HDFS存儲原理17
2.2.3 HDFS常用操作20
2.3 MapReduce21
2.3.1 MapReduce邏輯結構21
2.3.2 MapReduce操作案例23
*2.4 Zookeeper24
習題225
實驗報告2 Hadoop實驗27
第3章大數據採集與預處理29
3.1數據29
3.1.1數據是什麼29
3.1.2數據分類29
3.1.3度量和維度31
3.2數據採集32
3.2.1數據採集分類32
3.2.2數據採集方法32
3.2.3數據採集工具32
3.3數據清洗34
3.3.1數據清洗任務34
3.3.2數據清洗過程34
3.4數據變換35
3.4.1規範化36
3.4.2函數變換36
3.5網絡爬蟲37
3.5.1爬蟲簡介37
*3.5.2論壇爬蟲源代碼分析38
習題340
*實驗報告3網絡爬蟲41
第4章大數據管理42
4.1 NoSQL42
4.1.1 NoSQL概述42
4.1.2鍵值數據庫43
4.1.3圖數據庫44
4.1. 4文檔數據庫45
4.1.5列式數據庫47
4.1.6雲數據庫47
4.2 HBase47
4.2.1 HBase模型47
4.2.2 HBase與傳統關係數據庫的對比分析49
4.2.3 HBase系統架構49
4.2.4 HBase常用Shell命令51
習題452
實驗報告4 HBase實驗53
第5章大數據分析54
5.1大數據分析概述54
5.1.1數據分析原則54
5.1.2大數據分析特點54
5.1.3大數據分析流程55
5.1.4數據分析師基本技能和素質57
*5.1.5大數據分析難點58
*5.2業務理解59
5.2.1什麼是業務理解59
5.2.2如何理解業務60
5.2.3數據業務化61
5.3數據認知63
5.3.1數據預處理63
5.3.2概率分析63
*5.3.3對比分析67
*5.3.4細分分析68
*5.3.5交叉分析69
5.3.6相關分析69
5.4特徵工程72
5.4 .1特徵工程面臨的挑戰72
5.4.2特徵選擇72
5.4.3特徵提取72
5.4.4指標設計73
5.5數據建模76
5.5.1模型分類76
5.5.2決策樹77
5.5.3關聯分析81
5.5 .4回歸分析82
5.5.5聚類分析85
*5.5.6 k-鄰近分類算法KNN86
*5.6通用計算引擎Spark86
5.6.1 Spark簡介86
5.6.2 Spark與Hadoop差異88
5.6.3 Spark適用場景88
5.6.4 Spark運行模式89
5.6.5 Spark常用術語89
5.7大數據分析引擎Hive89
5.7.1數據倉庫概念89
5.7.2傳統數據倉庫的問題90
5.7.3 Hive特徵90
5.7.4 Hive系統架構90
5.7.5 Hive應用案例91
習題595
實驗報告5 Hive實驗101
第6章大數據可視化102
6.1數據可視化基本概念102
6.1.1為什麼要數據可視化102
6.1.2什麼是數據可視化103
6.1.3數據可視化的作用104
6.1.4數據可視化術語104
6.1.5數據可視化三要素105
6.2常用圖形105
6.2.1餅圖(扇形圖)105
6.2.2堆積柱形圖106
6.2.3風玫瑰圖106
6.2.4柱狀圖107
6.2.5直方圖107
6.2.6氣泡圖108
6.2.7散點圖矩陣108
6.2.8折線圖109
6.2.9面積圖109
6.2.10相關係數圖110
6.2.11雷達圖110
6.2.12箱線圖110
6.3數據可視化設計111
6.3.1數據可視化設計原則111
6.3.2數據可視化=數據設計故事113
6.3.3數據可視化圖形選擇建議113
6.4數據可視化工具114
6.4.1基本工具114
6.4.2進階工具114
6.5基於R語言可視化基礎117
6.5.1基本繪圖命令117
6.5.2 ggplot2繪圖121
習題6128
*實驗報告6可視化實驗129
第7章大數據應用131
7.1零售行業大數據131
7.1.1沃爾瑪的購物籃分析131
7.1.2農夫山泉用海量照片提升銷量132
7.2交通大數據134
7.2.1交通擁堵大數據分析134
7.2.2預測起飛時間142
7.3醫療大數據143
7.3.1移動醫療與個人健康143
7.3.2基因測序——精準治癌正在成為現實146
第8章大數據安全150
8.1大數據安全的重要意義150
8.2大數據面臨的挑戰151
8.3大數據的安全威脅152
8.3.1大數據基礎設施安全威脅152
8.3.2大數據存儲安全威脅152
8.3. 3大數據的隱私洩露153
8.3.4大數據的其他安全威脅155
8.4大數據與網絡攻擊監測155
8.5大數據安全分析155
8.6大數據安全標準157
8.6.1基礎標準類158
8.6.2平台和技術類158
8.6.3數據安全類159
8.6.4服務安全類159
8.6.5應用安全類160
附錄大數據軟件安裝161
A.1基礎環境準備161
A.2安裝JDK162
A.3安裝Hadoop162
A.4安裝Zookeeper167
A.5安裝HBase169
A.6安裝Hive170
A.7安裝Spark172
參考文獻175