深入理解Spark:核心思想與源碼分析 深入理解Spark:核心思想与源码分析

耿嘉安

  • 出版商: 機械工業
  • 出版日期: 2016-01-01
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • 頁數: 469
  • 裝訂: 平裝
  • ISBN: 7111522346
  • ISBN-13: 9787111522348
  • 相關分類: Spark
  • 已絕版

買這商品的人也買了...

商品描述

 

<內容簡介>

耿嘉安所著的《深入理解Spark(核心思想與源碼分析)》對Spark源代碼進行了全面而深入的分析,旨在為Spark的優化、定製和擴展提供原理性的指導。阿裡巴巴集團專家鼎力推薦,阿裡巴巴資深Java開發和大數據專家撰寫。本書對Spark的架構、部署模式和工作模塊的設計理念、實現源碼與使用技巧進行了深入的剖析與解讀。
本書分為三篇:
準備篇(第1?2章),介紹了spark的環境搭建、設計理念與基本架構,幫助讀者瞭解一些背景知識。
核心設計篇(第3?7章),著重講解Sparkcontext的初始化、存儲體系、任務提交與執行、計算引擎及部署模式的原理和源碼分析。讀者可以通過這部分的源碼剖析更加深入理解Spark的核心設計與實現,以便在實際使用中能夠快速解決線上問題並對性能進行調優。
擴展篇(第8?11章),主要講解基於Spark核心的各種擴展及應用,包括sQL處理引擎、Hive處理、流式計算框架Spark streaming、圖計算框架Graphx、機器學習庫MLlib等內容。通過閱讀這部分內容,讀者可以擴展實際項目中對Spark的應用場景,讓Spark煥發活力。

 

<章節目錄>

前言
準備篇
  第1章  環境準備
    1.1  運行環境準備
      1.1.1  安裝JDK
      1.1.2  安裝Scala
      1.1.3  安裝Spark
    1.2  Spark初體驗
      1.2.1  運行spark-shell
      1.2.2  執行word count
      1.2.3  剖析spark-shell
    1.3  閱讀環境準備
    1.4  Spark源碼編譯與調試
    1.5  小結
  第2章  Spark設計理念與基本架構
    2.1  初識Spark
      2.1.1  Hadoop MRv1的局限
      2.1.2  Spark使用場景
      2.1.3  Spark的特點
    2.2  Spark基礎知識
    2.3  Spark基本設計思想
      2.3.1  Spark模塊設計
      2.3.2  Spark模型設計
    2.4  Spark基本架構
    2.5  小結
核心設計篇
  第3章  SparkContext的初始化
    3.1  SparkContext概述
    3.2  創建執行環境SparkEnv
      3.2.1  安全管理器SecurityManager
      3.2.2  基於Akka的分佈式消息系統ActorSystem
      3.2.3  map任務輸出跟蹤器mapOutputTracker
      3.2.4  實例化ShuffleManager
      3.2.5  shuffle線程內存管理器ShuffleMemoryManager
      3.2.6  塊傳輸服務BlockTransferService
      3.2.7  BlockManagerMaster介紹
      3.2.8  創建塊管理器BlockManager
      3.2.9  創建廣播管理器Broadcast-Manager
      3.2.10  創建緩存管理器CacheManager
      3.2.11  HTTP文件服務器HttpFile-Server
      3.2.12  創建測量系統MetricsSystem
      3.2.13  創建SparkEnv
    3.3  創建metadataCleaner
  ……
  第4章  存儲體系
  第5章  任務提交與執行
  第6章  計算引擎
  第7章  部署模式
擴展篇
  第8章  Spark SQL

  第9章  流式計算
  第10章  圖計算
  第11章  機器學習
附錄