Storm 實時數據處理 (Storm Real-Time Processing Cookbook) 大数据技术丛书:Storm实时数据处理

安德森 (Quinton Anderson)

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

相關主題

商品描述

<內容簡介>

在大數據領域,Hadoop無疑是最炙手可熱的技術。作為分佈式系統架構,Hadoop具有高可靠性、高擴展性、高效性、高容錯性和低成本的優點。然而隨著數據體積越來越大,實時處理能力成為了許多機構需要面對的首要挑戰。Hadoop是一個批處理系統,在實時計算處理方面顯得十分乏力。Storm是一個類似於Hadoop勺實時數據處理框架,也是一個非常有效的開源實時計算工具,通常被比作「實時的Hadoop」。
    安德森編著的這本《Storm實時數據處理》通過豐富的實例,系統講解Storm的基礎知識和實時數據處理的最佳實踐方法,內容涵蓋Storm本地開發環境搭建、日誌流數據處理、Trident、分佈式遠程過程調用、Topology在不同編程語言中的實現方法、Storm與Hadoop的集成方法、實時機器學習、持續交付和如何在AWS上部署Storm。此外,本書旨在圍繞Storm技術促進DevOps實踐,使讀者能夠開發Storm解決方案,同時可靠地交付有價值的產品。
    《Storm實時數據處理》適合想學習實時處理技術或者想通過Storm實現實時處理方法的開發者閱讀。

<目錄>

譯者序
前言
第1章  搭建開發環境
  1.1  簡介
  1.2  搭建開發環境
  1.3  分佈式版本控制
  1.4  創建「Hello World」Topology
  1.5  創建Storm集群——配置機器
  1.6  創建Storm集群——配置Storm
  1.7  獲取基本的點擊率統計信息
  1.8  對Bolt進行單元測試
  1.9  實現集成測試
  1.10  將產品部署到集群
第2章  日誌流處理
  2.1  簡介
  2.2  創建日誌代理
  2.3  創建日誌Spout
  2.4  基於規則的日誌流分析
  2.5  索引與持久化日誌數據
  2.6  統計與持久化日誌統計信息
  2.7  為日誌流集群創建集成測試
  2.8  創建日誌分析面板
第3章  使用Trident計算單詞重要度
  3.1  簡介
  3.2  使用Twitter過濾器創建URL流
  3.3  從文件中獲取整潔的詞流
  3.4  計算每個單詞的相對重要度
第4章  分佈式遠程過程調用
  4.1  簡介
  4.2  通過DPRC實現所需處理流程
  4.3  對Trident Topology進行集成測試
  4.4  實現滾動窗口Topology
  4.5  在集成測試中模擬時間
第5章  在不同語言中實現Topology
  5.1  簡介
  5.2  在Qt中實現多語言協議
  5.3  在Qt中實現SplitSentence Bolt
  5.4  在Ruby中實現計數 Bolt
  5.5  在Clojure中實現單詞計數Topology
第6章  Storm與Hadoop集成
  6.1  簡介
  6.2  在Hadoop中實現TF-IDF演算法
  6.3  持久化來自Storm的文件
  6.4  集成批處理與實時視圖
第7章  實時機器學習
  7.1  簡介
  7.2  實現事務性Topology
  7.3  在R中創建隨機森林分類模型
  7.4  基於隨機森林的事務流業務分類
  7.5  在R中創建關聯規則模型
  7.6  創建推薦引擎
  7.7  實時在線機器學習
第8章  持續交付
  8.1  簡介
  8.2  搭建CI服務器
  8.3  搭建系統環境
  8.4  定義交付流水線
  8.5  實現自動化驗收測試
第9章  在AWS上部署Storm
  9.1  簡介
  9.2  使用Pallet在AWS上部署Storm
  9.3  搭建虛擬私有雲
  9.4  使用Vagrant在虛擬私有雲上部署Storm