Spark大數據處理:原理、算法與實例 Spark大数据处理:原理、算法与实例

劉軍, 林文輝, 方澄

  • 出版商: 清華大學
  • 出版日期: 2016-09-01
  • 定價: $294
  • 售價: 8.5$250
  • 語言: 簡體中文
  • 頁數: 199
  • 裝訂: 平裝
  • ISBN: 7302449953
  • ISBN-13: 9787302449959
  • 相關分類: Spark大數據 Big-data
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

<內容簡介>

本書以時下流行的Hadoop所存在的缺陷為出發點,深入淺出地介紹了下一代大數據處理核心技術Spark的優勢和必要性,並以簡潔的指引步驟展示瞭如何在10分鐘內建立一個Spark大數據處理環境。在此基礎上,本書以圖文並茂和豐富的示例代碼講解的形式系統性地揭示了Spark的運行原理、算子使用、算法設計和優化手段,為讀者提供了一個快速由淺入深掌握Spark基礎能力和高級技巧的參考書籍。
本書共六章,涉及的主題主要包括大數據處理技術從Hadoop發展到Spark的必然性、快速體驗Spark的指引、Spark架構和原理、RDD算子使用方法和示例、Spark算法設計實例、Spark程序優化方法。
本書適合需要使用Spark進行大數據處理的程序員、架構師和產品經理作為技術參考和培訓資料,亦可作為高校研究生和本科生教材。

<章節目錄>

第1章從Hadoop到Spark
1.1Hadoop——大數據時代的火種
1.1.1大數據的由來
1.1.2Google解決大數據計算問題的方法
1.1.3Hadoop的由來與發展
1.2Hadoop的局限性
1.2.1Hadoop運行機制
1.2.2Hadoop的性能問題
1.2.3針對Hadoop的改進
1.3大數據技術新星——Spark
1.3.1Spark的出現與發展
1.3. 2Spark協議族
1.3.3Spark的應用及優勢
第2章體驗Spark
2.1安裝和使用Spark
2.1.1安裝Spark
2.1.2瞭解Spark目錄結構
2.1.3使用Spark Shell
2. 2編寫和運行Spark程序
2.2.1安裝Scala插件
2.2.2編寫Spark程序
2.2.3運行Spark程序
2.3Spark Web UI
2.3.1訪問實時Web UI
2.3.2從實時UI查看作業信息
第3章Spark原理
3.1Spark工作原理
3.2Spark架構及運行機制
3.2.1Spark系統架構與節點角色
3.2.2Spark作業執行過程
3.2.3應用初始化
3.2 .4構建RDD有向無環圖
3.2.5RDD有向無環圖拆分
3.2.6Task調度
3.2.7Task執行
第4章RDD算子
4.1創建算子
4.1.1基於集合類型數據創建RDD
4.1.2基於外部數據創建RDD
4.2變換算子
4.2.1對Value型RDD進行變換
4.2.2對Key/ Value型RDD進行變換
4.3行動算子
4.3.1數據運算類行動算子
4.3.2存儲型行動算子
4.4緩存算子
第5章Spark算法設計
5.1過濾
5.2去重計數
5.3相關計數
5. 4相關係數
5.5數據聯結
5.6TopK
5.7Kmeans
5.8關聯規則挖掘
5.9kNN
5.10樸素貝葉斯分類
第6章善用Spark
6.1合理分配資源
6.2控制並行度
6.3利用持久化
6.4選擇恰當的算子
6.5利用共享變量
6.5.1累加器變量
6.5.2廣播變量
6.6利用序列化技術
6.7關註數據本地性
6.8內存優化策略
6.9集成外部工具
參考文獻