數據清洗與 ETL 技術

馮廣、龔旭輝、周瀚章、李嘉、徐啟東、曾虎、孔立斌、石鳴鳴

  • 出版商: 清華大學
  • 出版日期: 2022-04-01
  • 定價: $288
  • 售價: 8.5$245
  • 語言: 簡體中文
  • ISBN: 7302600813
  • ISBN-13: 9787302600817
  • 下單後立即進貨 (約4週~6週)

  • 數據清洗與 ETL 技術-preview-1
  • 數據清洗與 ETL 技術-preview-2
  • 數據清洗與 ETL 技術-preview-3
數據清洗與 ETL 技術-preview-1

買這商品的人也買了...

商品描述

本書為大數據時代下的產物,由淺入深地介紹大數據及其相關知識,在大數據的背景下著重介紹ETL數據處理技術,同時引入數據清洗的知識,理論與實際相結合,突出所長。在理論上,本書突出重點與難點,較為系統地介紹大數據的各項基本技術。在實踐操作上,本書貼近生活,切實理解,緊跟實驗進行,並從中萃取精華。同時本書還介紹ETL技術的主流工具,結合當下一些項目進行運用,並綜合課後思考題,使讀者在學習中體會大數據的樂趣,翱游在大數據的海洋中。 本書可作為高校新興專業——數據科學專業的配套教材,也可作為其他專業的選修課教材,還可作為初學者的學習教程。

目錄大綱

目錄

 

 

第1章從大數據到ETL1

1.1大數據概述1

1.1.1大數據的定義2

1.1.2大數據的基本性質2

1.1.3大數據的影響4

1.1.4大數據帶來的挑戰7

1.2科學處理數據9

1.3ETL簡介10

1.3.1ETL的基本定義10

1.3.2ETL的基本過程11

1.3.3ETL的架構體系11

1.3.4ETL的必要性13

1.3.5ETL的分類14

1.3.6基本ETL過程與數據清理的區別14

1.3.7ETL現狀與發展15

1.4數據抽取16

1.4.1數據抽取的概念16

1.4.2分類抽取16

1.4.3數據抽取的原則和方法17

1.5數據轉換17

1.5.1數據轉換的概念17

1.5.2類型轉換17

1.6數據加載18

1.6.1數據加載的概念18

1.6.2數據加載方式18

1.7實驗任務——處理論文的年份19

1.8小結23

1.9習題23第2章數據抽取25

2.1數據源25

2.1.1關系數據庫25

2.1.2非關系數據庫27

2.1.3通用程序庫28

2.2數據抽取方式29

2.2.1全量抽取29

2.2.2增量抽取29

2.2.3增量抽取的比較分析30

2.3Hadoop的數據抽取32

2.3.1Hadoop簡介32

2.3.2Hadoop研究現狀32

2.3.3環境搭建34

2.3.4數據採集34

2.4Web文件的數據抽取35

2.4.1Web文件簡介35

2.4.2主要工作35

2.4.3主要工具——Connotate35

2.4.4應用分析——基於頁面標簽的Web結構化數據抽取37

2.5數據庫的數據抽取41

2.5.1數據庫簡介41

2.5.2主要應用——基於ETL工具軟件的數據抽取43

2.6文本文件的數據抽取44

2.6.1文本文件數據抽取及應用領域44

2.6.2網絡爬蟲44

2.7實驗任務——MySQL環境搭建及數據抽取46

2.7.1MySQL在Windows下的搭建46

2.7.2MySQL在Linux下的搭建47

2.7.3案例分析50

2.8小結54

2.9習題54第3章數據轉換56

3.1數據轉換56

3.1.1數據轉換的概念56

3.1.2數據轉換的標準57

3.1.3數據轉換的方法57

3.1.4數據之間的關聯58

3.2數據清洗59

3.2.1數據清洗的主要內容59

3.2.2數據清洗研究現狀60

3.2.3數據清洗的必要性61

3.2.4數據清洗的問題61

3.2.5數據清洗對工具的要求62

3.2.6數據清洗的流程62

3.2.7數據清洗的原理63

3.2.8數據清洗的方法63

3.3Python下的數據清洗65

3.3.1Python概述65

3.3.2Python的特點66

3.3.3Python Pandas——數據清洗67

3.4數據轉換工具75

3.4.1Data Stage75

3.4.2Kettle78

3.4.3Informatica PowerCenter81

3.4.4ETL Automation82

3.4.5SSIS82

3.4.6幾種工具之間的比較83

3.5實驗任務——Kettle的分類安裝及案例分析84

3.5.1Kettle的分類安裝84

3.5.2案例分析——利用Kettle處理錯誤代碼行84

3.6小結87

3.7習題87第4章數據加載89

4.1數據加載89

4.1.1數據加載的概念89

4.1.2數據加載機制89

4.2數據加載技術90

4.2.1加載技術90

4.2.2全量數據加載流程91

4.3數據倉庫93

4.3.1數據倉庫基本內容94

4.3.2數據倉庫架構97

4.3.3數據倉庫設計98

4.3.4數據倉庫的規劃和需求分析99

4.3.5數據倉庫的建模100

4.3.6數據倉庫的物理模型分析107

4.3.7數據倉庫的物理模型設計109

4.4加載SQL123

4.4.1SQL的基本內容123

4.4.2MySQL集群體125

4.5加載MyCat128

4.5.1MyCat簡介128

4.5.2MyCat的關鍵特性128

4.5.3拓撲結構129

4.5.4MyCat的功能描述129

4.5.5MyCat下載安裝132

4.6加載數據流134

4.6.1流概述134

4.6.2數據流的基本性質135

4.6.3數據流的基本操作136

4.6.4數據流的描述方法137

4.7小結138

4.8習題138第5章大數據ETL實現139

5.1Spark的分佈式ETL實現139

5.1.1Spark概述140

5.1.2Spark數據模型——RDD140

5.1.3Spark的安裝配置141

5.1.4分佈式ETL總體架構143

5.1.5分佈式轉換引擎的實現144

5.1.6SparkStreaming的實時同步實現147

5.2Spark完成在ETL時的相關技術148

5.2.1SparkApplication提交邏輯分析149

5.2.2Spark交互模式150

5.2.3使用Spark實現ETL151

5.2.4小結151

5.3Hive的ETL實現152

5.3.1Hive簡介152

5.3.2Hadoop偽分佈式集群搭建152

5.3.3Hive的安裝配置156

5.3.4Hive的基本操作158

5.4Sqoop的ETL實現169

5.4.1Sqoop簡介169

5.4.2Sqoop的安裝部署169

5.4.3Sqoop的常用命令170

5.4.4案例分析——利用Sqoop進行ETL操作173

5.5小結176

5.6習題176第6章案例分析177

6.1校園大數據建設177

6.1.1校園大數據建設背景177

6.1.2校園大數據檢索需求178

6.1.3總體目標178

6.1.4建設內容179

6.1.5數據抽取180

6.1.6數據轉換180

6.1.7數據倉庫的建設182

6.1.8項目效益184

6.2反洗錢系統中的ETL應用185

6.2.1反洗錢簡介185

6.2.2反洗錢系統中ETL的重要性185

6.2.3反洗錢系統中的ETL設計186

6.3電信行業中的ETL應用190

6.3.1背景知識190

6.3.2設計目的191

6.3.3ETL架構設計191

6.3.4ETL接口設計193

6.3.5控制實現195

6.4雲計算下的ETL設計198

6.4.1雲計算簡介198

6.4.2傳統數據倉庫ETL面臨的困境198

6.4.3ETL系統設計199

6.4.4ETL工作流199

6.5BI項目中的ETL應用201

6.5.1BI概述201

6.5.2ETL功能架構202

6.5.3ETL數據流202

6.5.4ETL作業調度205

6.5.5ETL監控和日誌207

6.5.6數據質量檢測209

6.5.7BI項目中的ETL實現210

6.6小結215

6.7習題215參考文獻216