資料蒐集與預處理技術應用

安俊秀//唐聃//柳源

買這商品的人也買了...

商品描述

本書重點介紹了資料收集和資料預處理的相關理論與技術。
全書共9章,主要包含資料擷取與預處理概述,大數據開發環境的搭建,使用Flume擷取系統日誌數據,
使用Kafka擷取系統日誌數據,其他常用的系統日誌資料擷取工具,使用網路爬蟲擷取Web數據,
Python資料預處理庫的使用,使用ETL工具Kettle進行資料預處理,以及其他常用的資料預處理工具。
本書在第2章至第9章安排了豐富的實務操作,
實現了理論與實務的有機結合,幫助讀者更好地學習並掌握資料收集與預處理的關鍵技術。
本書可以作為高等院校大數據專業的大數據課程教材,也可以作為電腦相關專業的專業課或選修課教材,
同時也可以作為從事大數據相關專業的工作人員的參考用書。

目錄大綱

目錄
出版說明
前言
第1章資料蒐集與預處理概述
1.1 大數據簡介
1.1.1 資料的概念、類型、組織形式
1.1.2 大資料的概念、特性與作用
1.1.3 大資料的技術應用
1.2 資料分析簡介
1.2.1 資料分析的基本流程
1.2.2 資料分析的方法與技術
1.3 資料擷取簡介
1.3.1 資料擷取的三大方式及工具
1.3.2 資料擷取的應用情境
1.4 資料預處理簡介
1.4.1 資料預演處理的目的與意義
1.4.2 資料預處理的流程
1.4.3 資料預處理的工具介紹
習題
第2章大資料開發環境的建構
2.1 安裝Python與JDK
2.1.1 Java與Python概述
2.1.2 Python的安裝與設定
2.1.3 JDK的安裝與設定
2.1.4 Python與Java的IDE介紹
2.2 MySQL資料庫的安裝與設定
2.2.1 SQL概述
2.2.2 安裝MySQL資料庫
2.2.3 MySQL資料庫的基本使用
2.3 Hadoop的安裝與配置
2.3.1 單節點環境
2.3.2 偽分散式環境
2.3.3 節點間免密通訊
2.3.4 Hadoop的啟動與測試
2.4 在Hadoop叢集上執行WordCount
2.4.1 執行Java版本WordCount實例
2.4.2 執行Pythonhon版本WordCount實例
習題
第3章使用Flume擷取系統日誌資料
3.1 Flume概述
3.2 Flume的安裝運作
3.3 Flume的核心元件
3.3.1 Agent
3.3.2 Source
3.3.3 Sink
3.3.4 Channel
3.3.5 Event 3.44
FlumeEvent 3.4 FlumeEvent 3.4 Flume與選擇器
3.4.1 Flume內建攔截器
3.4.2 自訂攔截器
3.5 Flume負載平衡與故障轉移
3.6 實作案例:使用Flume擷取資料上傳至HDFS
習題
第4章使用Kafka擷取系統日誌資料
4.1 Kafka概述
4.1. 1 訊息佇列
4.1.2 Kafka的特性
4.1.3 Kafka與Flume的差異
4.2 Kafka的安裝部署
4.2.1 叢集規劃
4.2.2 安裝Zookeeper
4.2.3 安裝Kafka
4.3 Kafka的基本架構
4.3.1 Kafka的訊息系統
4.3 .2 Producer與Consumer
4.3.3 主題與分區
4.3.4 Broker與Kafka集群
4.3.5 Zookeeper在Kafka中的作用
4.4 實踐案例:使用Kafka採集本地日誌資料
4.5 實踐案例:Kafka與Flume結合採集日誌資料
習題
第5章其他常用的系統日誌資料擷取工具
5.1 Scribe
5.1.1 Scribe簡介
5.1.2 Scribe的設定檔
5.1.3 實務案例:使用Scribe擷取系統日誌資料
5.2 Chukwa
5.2.1 Chukwa簡介
5.2.2 Chukwa架構與資料擷取
5.2.3 實作案例:使用Chukwa擷取系統日誌資料
5.3 Splunk
5.3.1 Splunk概述
5.3.2 Splunk的安裝與基本使用
5.3.3 實務案例:使用Splunk擷取系統日誌資料
5.4 日誌易
5.4.1 日誌易的特點
5.4.2 註冊日誌易帳號
5.4.3 實務案例:使用日誌易採集搜尋本機日誌檔案
5.5 Logstash
5.5.1 Logstash簡介
5.5.2 Logstash的工作原理
5.5.3 Logstash安裝與部署
5.5.4 實作案例:使用Logstash擷取並處理系統日誌資料
5.5.5 實作案例:使用Logstash將資料匯入Elasticsearch
5.6 Fluentd
5.6.1 Fluentd簡介
5.6.2 Fluentd的安裝與設定
5.6.3 Fluentd的基本指令
5.6.4 實務案例:使用Fluentd擷取系統日誌資料
習題
第6章使用網路爬蟲擷取Web資料
6.1 網路爬蟲概述
6.1.1 網路爬蟲的基本原理
6.1.2 網路爬蟲的類型
6.2 網路爬蟲基礎
6.2.1 網路爬蟲的基本爬取方式
6.2.2 使用正規表示式進行字串比對
6.2.3 使用解析庫解析網頁
6.2.4 Ajax資料的爬取
6.2.5 使用selenium抓取動態渲染頁
6.3 常見的網路爬蟲框架
6.3.1 Scrapy框架
6.3.2 WebMagic框架
6.3.3 Crawler4j框架
6.3.4 WebCollector框架
6.4 實務案例:使用Scrapy爬取電商網站資料
習題
第7章Python資料預處理函式庫的使用
7.1 Python與資料分析
7.1.1 Python的特性
7.1.2 為何使用Python進行資料分析
7.2 NumPy:陣列與向量計算
7.3 Pandas:資料結構化操作
7.4 SciPy:科學化計算
7.5 Matplotlib:資料視覺化
7.6 實作案例:使用Python預處理旅遊路線資料
習題
第8章使用ETL工具Kettle進行資料預處理
8.1 Kettle概述
8.2 Kettle的安裝與配置
8.3 Kettle的基本使用
8.3.1 Kettle的使用介面
8.3.2 新建轉換與任務
8.3 .3 資料取得
8.3.4 資料清洗與轉換
8.3.5 資料遷移與裝載
8.4 實務案例:使用Kettle處理某電商網站資料
習題
第9章其他常用的資料預處理工具
9.1 Pig
9.1.1 Pig概述
9.1. 2 Pig的安裝與設定
9.1.3 Pig Latin的基本概念
9.1.4 使用Pig進行資料預