Spark 大數據分析新利器─資料科學家與數據分析師非用不可的入門指南書 (Big Data Analytics with Spark: A Practitioner's Guide to Using Spark for Large Scale Data Analysis)

Mohammed Gulle 著

買這商品的人也買了...

商品描述

<內容介紹>

本書涵蓋了Spark專案的主要知識:
Spark核心RDD
 
Spark Shell互動式數據分析
 
Spark Streaming即時資料串流
 
Spark SQL查詢處理
 
MLlib機器學習框架
 
GraphX圖形處理
 
除了以上基本Spark知識之外,還專闢一章介紹Scala,它除了是最熱門的函數式編程語言,也是Spark的原生語言。讀者將會學到使用Scala進行基礎函數編程,直接用它來寫出Spark應用程式。並且於最後特別提及Spark的三種叢集管理與Spark內建的網頁監控應用程式。

書中還介紹其他可搭配Spark使用的大數據技術,如:HDFS、Avro、Pqrquet、Kafka、Cassandra、Hbase、Mesos...等。也提供了機器學習和圖學概念的介紹。

如果想要將這本書發揮最大效益,就請嘗試動手鍵入書中的範例。用這些範例程式進行實驗,你將會覺得更加清楚明瞭。練習過書中的範例,在讀完這本書後將會成為一個有實力的Spark開發者。

<章節目錄>
CHAPTER 01──大數據技術
Hadoop
資料序列化
分欄式儲存
訊息系統
NoSQL
分散式SQL查詢引擎
總結
 
CHAPTER 02──Scala程式設計
函數式程式設計
Scala基礎
可獨立執行的Scala應用程式
總結
 
CHAPTER 03── Spark核心
總覽
高階架構
應用程式的執行
資料來源
應用程式介面
惰性操作
快取
Spark 工作
共用變數
總結
 
CHAPTER 04──使用Spark Shell進行互動式資料分析
起手式
REPL指令
將Spark Shell作為Scala Shell使用
數值分析
日誌分析
總結
 
CHAPTER 05──撰寫Spark應用程式
Spark中的Hello World
編譯並執行應用程式
監控應用程式
應用程式除錯
總結
 
CHAPTER 06──Spark Streaming
Spark Streaming簡介
應用程式介面
完整的Spark Streaming應用程式
總結
 
CHAPTER 07──Spark SQL
Spark SQL簡介
效能
應用程式
應用程式介面
內建函數
使用者自訂函數與使用者自訂彙整函數
互動式分析範例
使用Spark SQL JDBC伺服器進行互動式分析
總結
 
CHAPTER 08──Spark機器學習
介紹機器學習
Spark機器學習函式庫
MLlib函式庫概觀
The MLlib API
MLlib應用程式範例
Spark ML
Spark ML應用程式範例
總結
 
CHAPTER 09──Spark圖學處理
圖形簡介
GraphX簡介
GraphX API
總結
 
CHAPTER 10──叢集管理器
獨立叢集管理器
Apache Mesos
YARN
總結
 
CHAPTER 11──監控
監控獨立叢集
監控Spark應用程式
總結