大數據治理與安全:從理論到開源實踐(Big data governance and security: from theory to implementation) 大数据治理与安全:从理论到开源实践

劉馳, 胡柏青, 謝一等

  • 出版商: 機械工業
  • 出版日期: 2017-09-18
  • 定價: $474
  • 售價: 8.5$403
  • 語言: 簡體中文
  • 頁數: 388
  • 裝訂: 平裝
  • ISBN: 7111579976
  • ISBN-13: 9787111579977
  • 相關分類: 大數據 Big-data資訊安全
  • 已絕版

買這商品的人也買了...

商品描述

作為大數據前沿的新興領域,市面上大數據安全與治理的相關書籍屈指可數。本書在介紹大數據學術界新動態與大數據行業生產實踐的同時,對大數據安全與治理的新理論與實踐內容做了詳盡的闡述。本書分為兩部分:第壹篇(理論篇),介紹大數據治理與安全的理論、方法和技術挑戰等;第二篇(開源實現篇),介紹開源社區各類開源項目,將研究與實踐的內容根據不同組件分類。

作者簡介

教授、博導、北京理工大學軟件學院副院長。先後入選2015年度國家人社部“高層次留學人才回國資助計劃”和第八批陝西省百人計劃(短期)。分別於清華大學和英國帝國理工學院獲得學士和博士學位,後在德國電信研究院(柏林)、美國IBM TJ Watson研究中心和IBM中國研究院任博士後研究員和研究主管。主要研究方向是:綠色物聯網大數據高效傳輸與處理技術。發表高水平SCI/EI論文80餘篇,授權國內外發明專利7項,編著中英文書籍8本/節。主持了國家自然科學基金、工信部2013年電子商務集成創新試點工程等20餘省部級重點項目,現任國際信息處理聯合會(IFIP)雲計算專委會副主席、中國自動化學會大數據專委會委員、中國工程院聘中國信息與電子工程科技發展戰略研究中心特聘專家(計算機應用領域)等。

目錄大綱

Contents目錄
前言

第一篇理論篇
第1章大數據治理技術2 
1.1概述2 
1.1.1大數據治理的基本概念2 
1.1.2大數據治理的意義和重要作用5 
1.2框架7 
1.2.1大數據治理框架概述7 
1.2.2大數據治理的原則9 
1.2.3大數據治理的範圍11 
1.2.4大數據治理的實施與評估14 

第2章大數據安全、隱私保護和審計技術19 
2.1大數據安全19 
2.1.1大數據安全的意義和重要作用19 
2.1.2大數據安全面臨的問題與挑戰21 
2.1.3大數據安全防護技術23 
2.2大數據隱私保護26 
2.2.1大數據隱私保護的意義和重要作用26 
2.2.2大數據隱私保護面臨的問題與挑戰28 
2.2.3大數據隱私保護技術31 
2.3大數據治理審計34 
2.3.1大數據治理審計概述34 
2.3.2大數據治理審計內容37 
2.3. 3大數據治理審計方法和技術39 
2.3.4大數據治理審計流程43 

第二篇開源實現篇
第3章大數據治理之Apache Falcon48
3.1 Apache Falcon概述48 
3.1.1 Apache Falcon技術概況49 
3.1.2 Apache Falcon發展近況50 
3.1.3 Apache Falcon技術優勢50 
3.1.4 Apache Falcon架構51 
3.2 Apache Falcon的使用53 
3.2.1 Oozie的安裝與配置56 
3.2.2 Falcon的安裝與配置61 
3.2.3實體XML的創建與聲明63 
3.3 Apache Falcon場景設計與實現74 
3.3.1數據管道74 
3.3.2結構化數據導入分佈式文件系統82 
3.3.3結構化數據庫與數據倉庫的交互89 
3.3.4跨集群數據傳輸104 
3.3.5數據鏡像109 
3.3.6數據倉庫中的數據操作113 
3.4 Apache Falcon優化與性能分析118 
3.4.1 Apache Falcon控制流118 
3.4. 2分佈式部署119 
3.4.3安全模式120 
3.4.4 Apache Falcon優化122 
3.5 Apache Falcon應用舉例123 
3.5.1 InMobi基於Falcon的數據治理123 
3.5.2 Expedia基於Falcon的數據治理125
3.6本章小結126 

第4章大數據治理之Apache Atlas127 
4.1 Apache Atlas概述127 
4.1.1 Apache Atlas技術概況127 
4.1.2 Apache Atlas發展近況130 
4.1.3 Apache Atlas技術優勢133 
4.1.4 Apache Atlas架構136 
4.2 Apache Atlas的配置與使用143 
4.2.1安裝配置Apache Atlas143 
4.2.2添加或修改Atlas Web UI的登錄賬戶158 
4.2.3配置Hive通過Hive HOOK導入數據159 
4.2.4配置Sqoop通過Sqoop HOOK導入數據163 
4.2 .5配置Storm通過Storm HOOK導入數據167 
4.2.6配置Falcon通過Falcon HOOK導入數據173 
4.3 Apache Atlas的場景設計176 
4.3.1 Atlas總場景介紹176 
4.3.2 Atlas非實時數據場景178 
4.3.3 Atlas實時數據場景183 
4.3.4 Hive數據表操作183 
4.4 Apache Atlas優化與性能分析190 
4.5本章小結193 

第5章大數據安全之Apache Ranger194
5.1 Apache Ranger概述194 
5.1.1 Ranger技術概況194 
5.1.2 Ranger發展史及近況196 
5.1.3 Ranger的特點和作用197 
5.1.4 Ranger架構199 
5.1.5 Ranger應用場景200 
5.2 Apache Ranger的安全認證配置201 
5.2.1 Ranger安裝與部署201 
5.2.2安全及訪問權限控制機制206 
5.2.3 Ranger集成HDFS的安全認證機制與配置208 
5.2.4 Ranger集成YARN的安全認證機制與配置213 
5.2.5 Ranger集成Hive的安全認證機制與配置217 
5.2.6 Ranger集成HBase的安全認證機制與配置221 
5.2.7 Ranger集成Kafka的安全認證機制與配置228 
5.2.8 Ranger集成Atlas的安全認證機制與配置235 
5.2.9 Ranger集成Storm的安全認證機制與配置238 
5.2.10 Ranger集成Solr的安全認證機制與配置246 
5.3 Apache Ranger的功能配置254 
5.3.1 Tag同步驗證254 
5.3.2各類Policy驗證255 
5.4 Apache Ranger優化與性能分析262 
5.5本章小結263

第6章大數據安全之Apache Sentry265 
6.1 Apache Sentry概述265 
6.1.1 Apache Sentry技術概況265 
6.1.2 Apache Sentry發展近況267 
6.1.3 Apache Sentry技術優勢269 
6.1.4 Apache Sentry架構272 
6.2 Apache Sentry的安裝與配置274 
6.2.1先決條件274 
6.2.2 Impala的安裝與調試274 
6.2.3 Apache Sentry的安裝和配置282 
6.2.4 Apache Sentry與Impala的集成286 
6.3 Apache Sentry場景設計之Sentry對Impala的控制288 
6.3.1場景數據準備288 
6.3.2基於文件存儲元數據的場景驗證288 
6.3.3基於數據庫存儲元數據的場景驗證292 
6.4 Apache Sentry場景設計之Sentry對Hive的控制296 
6.4.1 Hive與Sentry的集成配置296 
6.4.2準備實驗數據298 
6.4.3基於文件存儲方式的數據表操作298 
6.4.4基於數據庫存儲方式的數據表操作301 
6.5本章小結305 

第7章大數據安全之Kerberos認證306
7.1 Kerberos概述306 
7.1.1 Kerberos技術概況306 
7.1.2 Kerberos發展史及近況307 
7.1.3 Kerberos架構308 
7.1.4 Kerberos的認證流程309 
7.1.5 Kerberos的風險與缺陷311 
7.1.6 Kerberos應用舉例312 
7.2 Kerberos使用操作說明314 
7.2.1名詞解釋314 
7.2.2 KDC