從程式設計師到架構師:大數據技術金融級全場景應用實戰
王偉傑 趙世輝
- 出版商: 機械工業
- 出版日期: 2025-04-17
- 售價: $594
- 語言: 簡體中文
- 頁數: 242
- 裝訂: 平裝
- ISBN: 7111774949
- ISBN-13: 9787111774945
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書以功能更廣更深、可靠性和安全性要求更高的金融級大數據平臺為參照,介紹大數據平臺的架構過程及各種大數據技術,
不僅包含資料擷取、資料整合、作業排程、資料加工、即時資料倉儲、資料服務、資料視覺化、資料探勘等常見的應用場景,
也加入了資料品質、資料安全、三態投產等廣受關註的內容。
本書以業務場景、技術選型、技術架構將主要章節劃分,讓讀者在理解大數據業務需求的基礎上,
瞭解各種大數據技術,並能夠選取合適的技術來建構大數據平臺。
本書內容豐富,圖文並茂,實戰性強,適合大數據科技初學者,政府、金融機構的大數據應用決策與技術人員,
以及IT經理、CTO、CIO等快速學習大數據技術,並能快速提升讀者的大數據平臺架構能力。
目錄大綱
前言
第1部分 概述及資料處理
第1章 金融大數據應用概述/
1.1 金融大數據技術發展歷程/
1.2 大數據技術分類/
1.3 金融大數據技術應用場景/
第2章 資料收集/
2.1 資料採集業務場景/
2.2 儲存到HDFS的採集技術方案/
2.2.1 前端頻道使用者行為資料擷取/
2.2.2 服務端應用層資料採集/
2.2.3 數據庫層的採集/
2.2.4 基於HDFS的資料擷取整體架構/
2.3 T 0的採集技術方案/
2.3.1 T 0採集架構與基於HDFS的採集架構的不同點/
2.3.2 T 0採集架構在前端、後端以及數據庫端的設計/
2.3.3 T 0資料採集整體架構/
2.4 全域資料即時擷取的技術挑戰/
2.5 實現全局資料即時擷取的技術思維/
2.5.1 數據庫資料即時採集/
2.5.2 基於Flink的採集平臺與採集類型算子化/
2.5.3 如何確保即時採集鏈路資料的一致性/
2.6 全局資料即時採集的整體技術方案/
2.6.1 資料來源層/
2.6.2 資料採集層/
2.6.3 資料儲存層/
2.6.4 如何選擇合適的採集模式/
2.7 本章小結/
第3章 資料離線處理/
3.1 資料離線處理業務場景/
3.2 資料離線處理架構的主要困難/
3.2.1 資料傳輸標準/
3.2.2 可以快速自由組合大數據處理動作的架構/
3.2.3 資料離線處理的整體技術架構/
3.2.4 資料離線處理各環節的技術要點/
3.3 企業級資料傳輸標準/
3.3.1 標準文件定義/
3.3.2 模型演進下的資料傳輸標準/
3.4 快速自由組合大數據作業流的架構重點/
3.4.1 大數據離線處理作業開發流程/
3.4.2 大數據離線處理作業開發流程技術要點/
3.5 資料離線處理整體架構要點/
3.5.1 大數據開發人員是寫程式碼還是寫SQL語句/
3.5.2 是否使用單一的計算引擎/
3.5.3 如何解決事務的場景問題/
3.5.4 整體架構/
3.6 離線處理動作實現重點/
3.6.1 資料卸載/
3.6.2 資料傳輸/
3.6.3 資料預處理/
3.6.4 資料加載/
3.6.5 數據加工/
3.6.6 資料複製/
3.7 本章小結/
第4章 串流資料處理/
4.1 串流資料處理業務場景/
4.2 串流資料處理簡介/
4.2.1 什麼是流式處理/
4.2.2 流計算和即時計算有什麼不同/
4.2.3 流處理引擎/
4.2.4 引擎選型思路/
4.3 整體方案/
4.4 方案難點和解決思路/
4.4.1 如何處理延遲與亂序資料/
4.4.2 如何實現維表關聯/
4.4.3 計算結果存在哪裡/
4.4.4 如何保證資料一致性/
4.5 維運註意事項/
4.5.1 監控哪些指標/
4.5.2 優化並行度/
4.5.3 做好資料補償的準備/
4.6 本章小結/
第2部分 數據使用
第5章 資料服務/
5.1 數據服務業務場景/
5.1.1 建構線上同步資料服務的案例/
5.1.2 案例擴展/
5.1.3 數據服務的需求/
5.2 規劃的功能架構/
5.3 建設思路/
5.3.1 服務存取代理層/
5.3.2 網關層/
5.3.3 服務管理層/
5.3.4 數據服務/
5.3.5 資料存取代理程式(查詢引擎)/
5.4 整體架構和時序圖範例/
5.4.1 整體架構/
5.4.2 時序圖範例/
5.4.3 註意事項/
5.5 本章小結/
第6章 資料加速/
6.1 數據加速業務場景/
6.2 技術選型/
6.2.1 選型維度介紹/
6.2.2 ClickHouse、Kylin、Elasticsearch和Doris的對比/
6.2.3 ClickHouse與Doris的比較/
6.2.4 ClickHouse和Kylin的比較/
6.2.5 選型結論/
6.3 整體架構介紹/
6.3.1 功能架構介紹/
6.3.2 業務流程介紹/
6.4 基於ClickHouse的實戰介紹/
6.4.1 基於ClickHouse的資料鏈路/
6.4.2 ClickHouse部署架構/
6.4.3 部署規劃/
6.4.4 配置經驗/
6.5 基於Kylin的實戰介紹/
6.5.1 基於Kylin的資料鏈路/
6.5.2 配置經驗/
6.6 本章小結/
第3部分 資料治理
第7章 元資料管理/
7.1 元資料管理的業務背景/
7.1.1 元資料管理的目標/
7.1.2 元資料管理的功能需求/
7.2 詳細設計思路和實現方案/
7.2.1 元資料模型/
7.2.2 元資料儲存/
7.2.3 元資料收集與登記/
7.2.4 元資料設計與發布/
7.2.5 資料權限管理/
7.2.6 元資料應用/
7.3 整體技術架構介紹/
7.4 本章小結/
第8章 資料安全管理/
8.1 資料安全管理業務背景/
8.1.1 需求討論/
8.1.2 資料安全流程/
8.2 辨識和脫敏的技術困難/
8.2.1 如何快速掃描和辨識成千上萬張表/
8.2.2 如何即時解析使用者的SQL語句取得查詢的表格字段/
8.2.3 如何保存辨識出來的資料保密等級/
8.3 識別大量數據/
8.3.1 識別資料的主要步驟和思路/
8.3.2 自動辨識的技術方案/
8.4 動態脫敏的技術方案/
8.4.1 動態脫敏的主要流程/
8.4.2 使用Calcite解析SQL/
8.4.3 動態脫敏接口設計/
8.5 用MySQL儲存辨識出來的資料保密等級/
8.6 本章小結/
第9章 資料品質管理/
9.1 資料品質管理業務背景/
9.2 技術語言業務化/
9.2.1 完善資料字典/
9.2.2 元資料資訊視覺化/
9.2.3 檢核規則模板化/
9.3 資料技術檢驗任務的自動化產生/
9.3.1 技術檢核的困難/
9.3.2 技術檢驗任務的自動化/
9.4 大數據檔的檢核/
9.4.1 檢核資料方法/
9.4.2 大文件快速檢核技術實現方案/
9.4.3 方案的權衡點/
9.5 端到端的架構/
9.6 本章小結/
第4部分 資料部署與維
第10章 大數據作業排程/
10.1 作業調度的技術難度/
10.1.1 架構設計/
10.1.2 作業編排/
10.1.3 資源管理/
10.1.4 作業監控運作維/
10.1.5 非功能要求/
10.2 作業調度整體架構/
10.2.1 經典兩層作業調度架構/
10.2.2 早期分佈式作業調度架構/
10.2.3 基於MQ/Redis的分佈式作業調度架構/
10.3 作業排程/
10.3.1 作業排程的主要步驟與想法/
10.3.2 基於Redis的智慧化作業排程方案/
10.4 作業資源管理/
10.5 調度維運服務/
10.5.1 作業影響性分析/
10.5.2 故障診斷/
10.6 調度非功能設計/
10.6.1 性能/
10.6.2 可靠性/
10.7 業務使用效果及限制總結/
10.8 作業排程發展趨勢與未來規劃/
10.9 本章小結/
第11章 大數據計算資源管理/
11.1 大數據運算資源管理業務場景/
11.1.1 資源管理業務背景/
11.1.2 資源類型/
11.1.3 大數據平臺資源規劃/
11.1.4 跨AZ資源管理/
11.1.5 資源使用監控/
11.2 資源管理技術實現想法/
11.2.1 資源管理技術實作簡介/
11.2.2 基於Kubernetes的資源管理實作/
11.2.3 基於YARN的Hadoop資源管理實作/
11.3 資源管理解決方案設計/
11.3.1 資源管理整體流程/
11.3.2 資源管理整體實作架構/
11.3.3 資源管理中彈性資源配置場景介紹/
11.4 資源管理設計不足探討/
11.5 本章小結/
第12章 三態投產/
12.1 三態投產業務場景/
12.1.1 大數據三態/
12.1.2 常規軟件投產/
12.1.3 自研投產部署方案的技術困難/
12.2 解決思路/
12.2.1 要在三態投產的大數據應用內容/
12.2.2 導入導出的範圍控制/
12.2.3 導入導出的效能問題/
12.2.4 製品和平臺及其組件版本的相容性/
12.2.5 製品的資料完整性/
12.3 整體方案介紹/
12.3.1 整體架構/
12.3.2 方案要點/
12.4 本章小結/
第5部分 綜合應用場景
第13章 流批一體/
13.1 流批一體業務背景/
13.2 流批一體初步架構/
13.2.1 場景問題解決思路/
13.2.2 架構方案/
13.2.3 Lambda架構/
13.2.4 存在的問題/
13.3 流批同寫一張表的架構/
13.3.1 什麼是流批同寫一張表/
13.3.2 技術選型/
13.3.3 Hudi原理介紹/
13.3.4 架構方案/
13.3.5 要點和技術困難/
13.3.6 待解決的問題/
13.3.7 使用效果/
13.4 處理層面的流批一體/
13.4.1 技術選型/
13.4.2 流批次一體架構方案/
13.4.3 關於Kappa架構/
13.5 選擇什麼樣的流批一體架構方案/
13.5.1 3種流批一體架構方案比較/
13.5.2 流批一體是否會取代流處理或批次/
13.6 本章小結/
第14章 資料湖應用/
14.1 什麼是資料湖/
14.2 為什麼要建造資料湖/
14.3 資料湖的規劃設計/
14.3.1 資料湖與資料倉儲的區別與關係/
14.3.2 資料湖架構規劃/
14.4 資料湖的技術選型/
14.4.1 數據獲取/
14.4.2 資料儲存/
14.4.3 數據處理/
14.4.4 訪問分析/
14.4.5 數據管理/
14.5 資料湖的整體架構/
14.5.1 技術架構/
14.5.2 資料鏈路介紹/
14.6 資料湖建設中的問題/
14.7 本章小結/
第15章 建置自主可控的信創大數據平臺/
15.1 建置大數據平臺的業務背景/
15.1.1 為什麼要建置大數據平臺/
15.1.2 建置大數據平臺的架構需求/
15.1.3 待解決的架構問題/
15.2 組件劃分及設計/
15.2.1 組件劃分/
15.2.2 各組件設計思路/
15.2.3 組件間協同/
15.3 信創適配/
15.3.1 什麼是信創/
15.3.2 信創環境適配常見問題/
15.3.3 適配工作/
15.4 整體架構/
15.5 本章小結/
第16章 大數據發展趨勢與未來規劃/
16.1 大數據領域新技術的發展/
16.1.1 新型資料儲存與運算架構/
16.1.2 即時數據處理技術/
16.1.3 資料治理與安全隱私保護技術/
16.2 大數據與其他技術領域的整合發展/
16.2.1 大數據技術領域內部融合/
16.2.2 大數據與人工智能技術/
16.2.3 大數據與物聯網技術/
16.2.4 大數據與雲端原生技術/
16.3 技術人員的因應措施/
16.3.1 創新思維與跨界思維/
16.3.2 持續學習的態度/
16.3.3 專註於技術的業務價值而非技術本身/
16.4 大數據開發中的幾個誤解/
16.4.1 重「技術」不重「業務」/
16.4.2 重「繼承」不重「創新」/
16.4.3 重“功能”不重“非功能”/
16.4.4 技術上重「深度」不重「廣度」/
後記/