大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版)

唐世偉 田楓 蓋璇 李學貴

  • 出版商: 清華大學
  • 出版日期: 2022-09-01
  • 售價: $359
  • 貴賓價: 9.5$341
  • 語言: 簡體中文
  • ISBN: 7302612242
  • ISBN-13: 9787302612247
  • 相關分類: NoSQL大數據 Big-data
  • 立即出貨 (庫存=1)

  • 大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版)-preview-1
  • 大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版)-preview-2
  • 大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版)-preview-3
大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版)-preview-1

買這商品的人也買了...

商品描述

本書主要介紹大數據關鍵技術中的大數據採集和數據預處理技術,是大數據專業的入門級的專業基礎課教程(含教學課件、源代碼與視頻教程),旨在為學生搭建起大數據的知識架構,講述大數據採集和數據預處理的基本原理,開展相關的實驗,為學生在大數據以及相關領域的學習奠定堅實的基礎。全書共分四部分:第一部分是理論基礎(第1~2章和第6章),主要介紹大數據技術、大數據採集和大數據預處理的基本概念以及基礎理論;第二部分是大數據採集(第3~5章),分別介紹3種大數據的採集方法、技術及4種工具;第三部分是大數據預處理(第7~8章),介紹4種大數據預處理技術、方法;第四部分是實驗指導(第9~11章),介紹大數據採集和大數據預處理的實驗平臺以及具體實驗的內容、方法、流程等。 為便於讀者高效學習,快速掌握大數據專業基礎知識。作者精心製作了完整的教學課件(11章PPT)與部分配套視頻教程(200分鐘)。本書可以作為高等院校電腦、電子信息、信息管理、軟件工程等專業,尤其大數據相關專業的本科和碩士研究生教材或參考書。

目錄大綱

 

 

 

 

 

隨書資源

 

 

 

目錄

第1章概述

 

1.1大數據基礎

 

1.1.1大數據的定義與特徵

 

1.1.2我國的大數據發展及趨勢

 

1.1.3大數據的應用

 

1.1.4大數據的層次架構

 

1.2大數據技術

 

1.2.1大數據關鍵技術

 

1.2.2大數據支撐技術

 

1.3大數據的影響及思維方式

 

1.3.1大數據的影響

 

1.3.2大數據的思維方式

 

1.4大數據倫理及安全

 

1.4.1大數據倫理

 

1.4.2大數據安全

 

1.5本章小結

 

習題

 

第2章大數據採集技術基礎

 

2.1傳統數據採集技術

 

2.1.1傳統數據採集及特點

 

2.1.2傳統數據採集的硬件與軟件

 

2.1.3傳統數據採集的關鍵技術

 

2.2大數據採集基礎

 

2.2.1大數據採集的概念

 

2.2.2大數據採集的要點

 

2.2.3大數據的來源

 

2.2.4大數據採集的基本方法

 

2.3大數據分佈式文件系統

 

2.3.1數據管理技術的發展

 

2.3.2HDFS概述

 

2.3.3HDFS特點

 

2.3.4HDFS工作原理

 

2.3.5HDFS的讀/寫數據流程

 

2.4分佈式數據庫系統HBase

 

2.4.1分佈式關系數據庫系統的缺陷

 

2.4.2HBase簡介

 

2.4.3HBase的數據模型關鍵要素

 

2.4.4HBase的體系結構

 

2.5大數據分佈式數據倉庫

 

2.5.1數據倉庫的特點

 

2.5.2Hive的內部架構

 

2.5.3Hive的數據組織

 

2.6本章小結

 

習題

 

 

 

 

 

第3章系統日誌數據採集

 

3.1系統日誌數據採集概述

 

3.1.1系統日誌分類

 

3.1.2日誌分析應用場景

 

3.1.3系統日誌收集方法

 

3.2Flume數據採集

 

3.2.1Flume效益

 

3.2.2Flume整體結構

 

3.2.3Flume的核心部件Agent

 

3.2.4Flume運行機構

 

3.3Scribe數據採集

 

3.3.1Scribe的功能

 

3.3.2Scribe的架構

 

3.3.3Scribe的流程

 

3.3.4Scribe存儲類型

 

3.4Event Log Analyzer數據採集

 

3.4.1Event Log Analyzer特點

 

3.4.2Event Log Analyzer主要功能

 

3.4.3Event Log Analyzer的可視化用戶界面

 

3.5基於Log Parser的數據採集

 

3.5.1Log Parser組成部分

 

3.5.2Log Parser Lizard軟件功能

 

3.5.3Log Parser Lizard軟件特色

 

3.6本章小結

 

習題

 

第4章大數據遷移

 

4.1數據遷移基礎

 

4.1.1大數據遷移的需求

 

4.1.2大數據遷移的風險

 

4.1.3大數據遷移的流程

 

4.1.4大數據遷移任務類型

 

4.2數據遷移相關技術

 

4.2.1基於存儲的數據遷移

 

4.2.2基於主機邏輯捲的數據遷移

 

4.2.3基於數據庫的數據遷移

 

4.2.4基於服務器虛擬化的數據遷移

 

4.3大數據遷移工具Sqoop

 

4.3.1Sqoop概述

 

4.3.2Sqoop的數據導入

 

4.3.3Sqoop的數據導出

 

4.4ETL數據遷移技術

 

4.4.1ETL概述

 

4.4.2ETL的實現模式

 

4.4.3ETL工具

 

4.5本章小結

 

習題

 

第5章互聯網數據採集

 

5.1網絡爬蟲概述

 

5.1.1網絡爬蟲的基本概念

 

5.1.2網絡爬蟲的爬行策略

 

5.1.3Web更新策略

 

5.1.4robots協議

 

5.2網絡爬蟲方法

 

5.2.1按功能分類的網絡爬蟲

 

5.2.2通用網絡爬蟲

 

5.2.3焦點網絡爬蟲

 

5.2.4Deep Web爬蟲

 

5.2.5分佈式網絡爬蟲

 

5.3網絡爬蟲工具

 

5.3.1ParseHub

 

5.3.2Web Scraper

 

5.3.3後羿採集器

 

5.3.4八爪魚收集器

 

5.4Python爬蟲技術

 

5.4.1Python爬行器基礎知識

 

5.4.2反爬蟲與反爬蟲技術

 

5.5本章小結

 

習題

 

第6章數據預處理基礎

 

6.1數據的描述

 

6.1.1數據對象與屬性類型

 

6.1.2數據的統計描述

 

6.1.3數據矩陣與相似(相異)矩陣

 

6.2相似性或相異性度量方法

 

6.2.1標稱屬性相似性或相異性的度量

 

6.2.2二元屬性相似性或相異性的度量

 

6.2.3數值屬性相似性或相異性的度量

 

6.2.4文檔相似性和相異性的度量

 

6.3大數據質量

 

6.3.1常見的數據質量問題

 

6.3.2大數據質量標準 

 

6.4本章小結

 

習題

 

第7章數據清洗與集成

 

7.1數據清洗基礎

 

7.1.1數據清洗的任務

 

7.1.2數據清洗的前期準備

 

7.1.3數據清洗的一般性系統框架

 

7.2數據清洗技術

 

7.2.1缺失值處理

 

7.2.2光滑噪聲數據處理

 

7.2.3檢測偏差與糾正偏差

 

7.3數據集成基礎

 

7.3.1數據集成的難點

 

7.3.2數據集成的方式

 

7.4數據集成技術

 

7.4.1模式識別和對象匹配

 

7.4.2冗餘處理

 

7.4.3數據值沖突的檢測與處理

 

7.5本章小結

 

習題

 

第8章數據歸約與變換

 

8.1數據歸約基礎

 

8.1.1數據歸約策略

 

8.1.2數據歸約算法的特點

 

8.1.3數據歸約的一般方法

 

8.2數據歸約技術

 

8.2.1小波變換

 

8.2.2主成分分析

 

8.2.3屬性子集選擇

 

8.2.4回歸和對數線性模型

 

8.2.5直方圖

 

8.2.6數據立方體聚集

 

8.3數據變換基礎

 

 

8.3.1數據變換內容

 

8.3.2數據變換的意義

 

8.4數據變換技術

 

8.4.1規範化變換

 

8.4.2離散化變換

 

8.4.3標稱數據的概念層次變換

 

8.5本章小結

 

習題

 

第9章大數據採集實驗

 

9.1實驗1基於EventLog Analyzer的日誌分析

 

9.2實驗2基於Log Parser的日誌處理

 

9.3實驗3基於八爪魚採集器的網絡信息爬取

 

9.4實驗4瞭解和使用Python和requests庫

 

9.5實驗5使用PyCharm編寫requests庫爬蟲

 

9.6實驗6使用PyCharm編寫BeautifulSoup庫爬蟲

 

9.7本章小結

 

 

第10章大數據預處理實驗

 

10.1實驗1啟動、瞭解SaCa大數據實驗平臺

 

10.2實驗2使用SaCa大數據實驗平臺分析數據

 

10.3實驗3大數據預處理基礎——數據集成

 

10.4實驗4缺失值填充

 

10.5實驗5數據規範化

 

10.6實驗6連續特徵離散化

 

10.7實驗7主成分分析

 

10.8實驗8相關性特徵選擇

 

10.9本章小結

 

 

第11章大數據採集與預處理應用案例

 

11.1基於Pandas圖書數據分析處理

 

11.1.1案例意義

 

11.1.2Pandas庫

 

11.1.3圖書數據採集

 

11.1.4數據預處理及分析

 

11.2石油數據預處理系統

 

11.2.1石油數據預處理系統需求

 

11.2.2石油數據預處理系統流程

 

11.2.3石油數據預處理算法

 

11.2.4實驗數據預處理結果分析

 

11.3電影票房預測數據分析處理

 

11.3.1案例意義

 

11.3.2數據處理流程

 

11.3.3數據採集和分析

 

11.3.4數據處理和預測

 

 

參考文獻