高效使用 Greenplum:入門、進階與數據中台

王春波

  • 出版商: 機械工業
  • 出版日期: 2021-12-16
  • 售價: $654
  • 貴賓價: 9.5$621
  • 語言: 簡體中文
  • 頁數: 388
  • 裝訂: 平裝
  • ISBN: 7111696492
  • ISBN-13: 9787111696490
  • 相關分類: SQL大數據 Big-dataData Science
  • 立即出貨

買這商品的人也買了...

商品描述

內容簡介
這不僅是一本從原理到使用、從入門到進階講解Greenplum的著作,
而且是一本指導企業用更省錢、更高效地方式使用Greenplum構建企業級數據倉庫和數據中台的著作。
作者在數據架構和數據倉庫一線工作10餘年,積累了豐富的項目經驗,
他用淺顯易懂的語言、貼近生產環境的案例、豐富的示意圖例寫作了本書,能幫助讀者快速掌握具有實戰價值的知識。
具體地,閱讀本書你將收穫如下內容:
?掌握數據倉庫技術的發展歷程和發展方向;
?理解MPP架構的架構特點和實現邏輯;
?Greenplum數據庫的安裝和基本操作;
?Greenplum數據庫的工作原理;
?SQL語句從入門到開發實戰;
?Greenplum數據庫ETL相關功能的具體用途;
?機器學習、文本處理、圖計算、GIS等的入門知識;
?掌握Greenplum數據庫的運維和監控要點;
?全面掌握Greenplum數據庫的性能優化;
?數據中台的理念和建設路徑;
?數據中台從接口到智能化應用的項目實戰;
?零售行業數據中台的項目實戰案例。

作者簡介

王春波
資深架構師和數據倉庫專家,現任上海啟高信息科技有限公司大數據架構師,
Apache Doris和openGauss貢獻者,Greenplum中文社區參與者。
具有十多年的數據倉庫、數據集市、數據中台項目實戰經驗,
對大數據主流技術架構、產品選型與解決方案有深入研究,
尤其擅長用優雅的SQL實現複雜的邏輯。
常年奔波在各個項目交付現場,曾成功主導過中國郵政儲蓄銀行、
南海農商銀行、廣東省聯社、前海微眾銀行、
廣東南粵銀行等多家銀行的管理會計項目,以及卡賓、安踏、
特步等多家零售鞋服企業的數據中台項目。
公眾號“數據中台研習社”運營者

目錄大綱

序一
序二
序三
前言
第一部分 大數據平台概述
第1章 大數據平台技術的演進2
1.1 關係型數據庫2
1.1.1 數據庫發展歷程2
1.1.2 關係型數據庫獨霸天下4
1.1.3 結構化查詢語言SQL4
1.1.4 列存儲的興起5
1.2 Hadoop生態系統7
1.2.1 Hadoop概述7
1.2.2 Hadoop生態圈7
1.2.3 Hadoop的優缺點9
1.3 NoSQL的瓶頸和SQL數據庫的回歸10
1.3.1 NoSQL產品的發展10
1.3.2 NoSQL的共性11
1.3.3 SQL數據庫的回歸12
1.4 MPP架構的興起14
1.4.1 什麼是MPP架構14
1.4.2 MPP架構的蓬勃發展15
1.4.3 MPP數據庫代表—TBase17
1.4.4 淺談HTAP19
第二部分 Greenplum入門
第2章 Greenplum概述24
2.1 Greenplum的前世今生24
2.2 Greenplum數據庫架構27
2.3 Greenplum數據庫的特點28
2.4 Greenplum新特性及展望30
2.5 Greenplum的優勢32
第3章 Greenplum的安裝與部署35
3.1 Greenplum數據庫安裝過程35
3.1.1 準備工作35
3.1.2 安裝Master節點39
3.1.3 複製安裝包到其他節點41
3.1.4 初始化Greenplum數據庫42
3.2 安裝GPCC43
3.3 Greenplum訪問接口46
3.3.1 CLI46
3.3.2 JDBC47
3.3.3 ODBC48
3.4 Greenplum數據庫常用命令48
3.4.1 啟動和停止48
3.4.2 修改參數49
3.4.3 其他常用命令51
3.5 Greenplum性能測試52
第4章 Greenplum使用入門54
4.1 數據類型詳解54
4.1.1 基本數據類型54
4.1.2 特殊數據類型56
4.1.3 組合數據類型60
4.2 數據表的基本使用62
4.2.1 表對象定義62
4.2.2 表的基本操作63
4.2.3 數據的基本操作64
4.3 數據表的高級應用65
4.3.1 數據表的存儲特性69
4.3.2 分區表詳解72
4.3.3 外部表76
4.4 數據庫函數79
4.4.1 數學函數79
4.4.2 三角函數列表80
4.4.3 字符串函數和操作符80
4.4.4 類型轉換相關函數82
4.4.5 自定義函數83
4.5 數據庫的其他對象85
4.5.1 視圖85
4.5.2 索引85
4.5.3 序列87
第三部分 Greenplum應用
第5章 Greenplum查詢詳解90
5.1 SQL語法92
5.1.1 簡單SQL語法92
5.1.2 WITH子句特性95
5.1.3 IN語句和EXISTS語句98
5.1.4 MERGE子句的實現100
5.2 JOIN操作101
5.3 分析函數的妙用106
5.4 高級函數精選110
第6章 ETL工具箱114
6.1 數據加載王者GPLoad114
6.1.1 GPLoad簡介114
6.1.2 GPLoad配置詳解116
6.1.3 GPLoad實戰118
6.2 自定義存儲過程120
6.2.1 存儲過程介紹 120
6.2.2 存儲過程應用模板121
6.2.3 存儲過程精選案例122
6.3 PXF插件131
6.3.1 PXF簡介131
6.3.2 安裝PXF132
6.3.3 PXF實戰135
6.4 DBLink136
6.4.1 DBLink簡介136
6.4.2 安裝DBLink137
6.4.3 DBlink實戰139
6.5 拉鍊表142
第7章 Greenplum高級應用147
7.1 開放的編程接口147
7.1.1 PL/Python148
7.1.2 PL/R150
7.2 MADlib機器學習庫153
7.2.1 安裝MADlib154
7.2.2 線性回歸案例157
7.2.3 關聯規則案例158
7.2.4 樸素貝葉斯分類案例159
7.3 半結構化數據分析164
7.4 地理空間數據分析166
7.5 圖計算應用168
第8章 Greenplum運維管理和監控172
8.1 數據庫管理172
8.1.1 創建和管理數據庫172
8.1.2 創建和管理模式173
8.1.3 創建和管理表空間175
8.1.4 創建和管理用戶178
8.1.5 創建和管理資源隊列180
8.2 可視化監控頁面—GPCC183
8.3 管理好幫手—gp_toolkit185
8.4 Greenplum備份和恢復187
8.5 在線擴容工具GPExpand189
8.5.1 Greenplum擴容實戰189
8.5.2 擴容原理分析191
8.6 鎖機制192
8.6.1 鎖管理概述192
8.6.2 普通鎖數據結構192
第9章 Greenplum性能優化197
9.1 系統級優化197
9.1.1 操作系統選擇197
9.1.2 硬件資源配置198
9.1.3 磁盤讀寫199
9.1.4 節點之間的網絡帶寬202
9.1.5 系統參數202
9.2 數據庫級優化204
9.2.1 數據庫參數配置204
9.2.2 資源隊列206
9.3 表級優化206
9.3.1 建表參數207
9.3.2 表的優化208
9.4 執行計劃和查詢優化209
9.4.1 查看執行計劃210
9.4.2 數據掃描方式210
9.4.3 分佈式執行方式213
9.4.4 兩種聚合方式214
9.4.5 關聯分類214
9.4.6 優化器的選擇216
9.4.7 其他關鍵術語217
第10章 Greenplum與開源組件220
10.1 Kettle220
10.2 DataX224
10.3 HDFS、Hive和HBase228
10.4 Spark230
10.5 Kafka235
10.6 Flink238
第11章 Greenplum與BI應用244
11.1 Tableau244
11.1.1 Tableau連接Greenplum245
11.1.2 Tableau實踐要點245
11.2 永洪BI248
11.3 帆軟BI250
11.4 DataV253
11.5 Quick BI253
第四部分 數據中台實戰
第12章 數據中台建設思路256
12.1 為什麼要搭建數據中台256
12.2 什麼是數據中台258
12.3 如何搭建數據中台259
12.3.1 數據資產盤點和規劃259
12.3.2 數據應用規劃與設計260
12.3.3 數據平台選型與建設261
12.3.4 數據應用設計與實現262
12.3.5 組織架構調整與流程變革262
12.4 數據中台怎麼選型263
12.4.1 數據倉庫選型263
12.4.2 ETL工具選型265
12.4.3 調度平台選型266
12.4.4 BI工具選型268
第13章 接口數據同步270
13.1 全量接口同步270
13.2 增量接口同步276
13.3 流式數據同步281
13.4 日誌流數據同步283
第14章 數據建模285
14.1 數據建模思想285
14.1.1 Inmon企業信息化工廠286
14.1.2 Kimball的維度數據倉庫287
14.1.3 兩種建模體系的對比288
14.2 數據分層設計288
14.2.1 操作數據存儲層289
14.2.2 數據倉庫層290
14.2.3 數據集市層292
14.3 數據分層實戰案例293
14.3.1 ODS層293
14.3.2 DWD層293
14.3.3 DWB層297
14.3.4 DWS層299
14.3.5 ADS層307
14.4 數據中台命名規範311
14.4.1 數據庫表命名312
14.4.2 數據庫字段命名312
14.4.3 腳本命名規範313
第15章 數據中台主要配套功能314
15.1 數據權限管理314
15.2 數據補錄319
15.3 BI門戶320
15.4 元數據管理323
15.5 指標管理324
第16章 數據中台數據應用328
16.1 商業智能328
16.2 自助分析平台331
16.3 數據服務332
16.4 標籤平台335
16.5 推薦系統338
第17章 基於Greenplum的數據中台實踐案例342
17.1 項目背景342
17.2 項目需求343
17.3 項目技術實現344
17.3.1 系統架構344
17.3.2 系統ETL分層345
17.3.3 系統調度任務346
17.4 智能數據應用347
17.4.1 自助分析應用348
17.4.2 固定報表349
17.4.3 可視化大屏350
17.4.4 釘釘數據服務351
17.5 典型技術方案分享352
17.5.1 準實時需求實現方案352
17.5.2 數據庫優化方案353
17.5.3 數據權限控制方案355
17.5.4 歷史數據離線存儲方案358
17.5.5 系統備份方案358
17.6 典型業務方案分享359
17.6.1 零售指標同期分析359
17.6.2 零售指標節假日對比分析361
17.6.3 在庫庫存362
17.6.4 在途庫存363
17.6.5 售罄率365
17.6.6 齊碼率368
17.7 項目總結370