Flume日誌收集與MapReduce模式 Flume日志收集与MapReduce模式

Steve Hoffman

  • 出版商: 機械工業
  • 出版日期: 2015-06-01
  • 定價: $234
  • 售價: 8.5$199
  • 語言: 簡體中文
  • 頁數: 164
  • 裝訂: 平裝
  • ISBN: 7111502078
  • ISBN-13: 9787111502074
  • 相關分類: 分散式架構
  • 下單後立即進貨 (約4週~6週)

商品描述

 

<內容簡介>

史蒂夫·霍夫曼、斯里納特·佩雷拉編著的《Flume日誌收集與MapReduce模式/大數據技術叢書》分為上下兩篇,對Flume重要組件及其在日常開發中的使用以及MapRcducc編程知識進行了全面而深入的探討,提供大量實踐案例,可以幫助讀者快速掌握並靈活運用Flume和MapRcducc知識解決實際項目中遇到的問題。
    上篇介紹Flume的重要組件以及如何用F1umc解決HDFs和流式數據∕日誌的問題,首先簡要介紹Flume的架構,包括將數據移動到數據庫以及從數據庫獲取數據、NosQL數據存儲和性能調優,然後深入講解各個架構組件(源、通道、接收器、通道處理器、接收器組等)的具體實現及配置選項,並且介紹瞭如何編寫自定義的實現,最後介紹Flume監控方面的知識並總結了實時分佈式數據收集的現狀。
    下篇則對Hadoop以及MapRcducc編程進行了簡明介紹,旨在幫助讀者快速起步並對使用Hadoop進行編程有個總體的認識。本篇主要內容包括如何編寫一個Hadoop數據格式化器來讀取Amazon數據格式,如何通過MapRcducc處理Amazon數據、連接兩個數據集、實現差集、統計兩個條目同時出現的次數、實現圖的遍歷,以及如何通過反向索引實現簡單的搜索,如何通過Kmcaos演算法建立數據集的集群等。

 

<章節目錄>

譯者序
前 言
上篇 Flume日誌收集
  第1章 概覽與架構
    1.1 Flume 0.9
    1.2 Flume 1.X(Flume-NG)
    1.3 HDFS與流式數據/日誌的問題
    1.4 源、通道與接收器
    1.5 Flume事件
      1.5.1 攔截器、通道選擇器與選擇處理器
      1.5.2 分層數據收集(多數據流與代理)
    1.6 小結
  第2章 Flume快速起步
    2.1 下載Flume
    2.2 Flume配置文件概覽
    2.3 從「Hello World」開始
    2.4 小結
  第3章 通道
    3.1 內存通道
    3.2 文件通道
    3.3 小結
  第4章 接收器與接收處理器
    4.1 HDFS接收器
      4.1.1 路徑與文件名
      4.1.2 文件轉儲
    4.2 壓縮編解碼器
    4.3 事件序列化器
      4.3.1 文本輸出
      4.3.2 帶有頭信息的文本
      4.3.3 Apache Avro
      4.3.4 文件類型
      4.3.5 超時設置與線程池
    4.4 接收器組
      4.4.1 負載均衡
      4.4.2 故障恢復
    4.5 小結
  第5章 源與通道選擇器
    5.1 使用tail的問題
    5.2 exec源
    5.3 假離線目錄源
    5.4 syslog源
      5.4.1 syslog UDP源
      5.4.2 syslog TCP源
      5.4.3 多埠syslog TCP源
    5.5 通道選擇器
      5.5.1 複製
      5.5.2 多路復用
    5.6 小結
  第6章 攔截器、ETL與路由
    6.1 攔截器

      6.1.1 Timestamp
      6.1.2 Host
      6.1.3 Static
      6.1.4 正則表達式過濾
      6.1.5 正則表達式抽取
      6.1.6 自定義攔截器
    6.2 數據流分層
      6.2.1 Avro源/接收器
      6.2.2 命令行Avro
      6.2.3 Log4J追加器
      6.2.4 負載均衡Log4J追加器
    6.3 路由
    6.4 小結
  第7章 監控Flume
    7.1 監控代理進程
      7.1.1 Monit
      7.1.2 Nagios
    7.2 監控性能度量情況
      7.2.1 Ganglia
      7.2.2 內部HTTP服務器
      7.2.3 自定義監控鉤子
    7.3 小結
  第8章 萬法皆空——實時分佈式數據收集的現狀
    8.1 傳輸時間與日誌事件
    8.2 萬惡的時區
    8.3 容量規劃
    8.4 多數據中心的註意事項
    8.5 合規性與數據失效
    8.6 小結
下篇 MapReduce模式
  第9章 使用Java編寫一個單詞統計應用(初級)
    9.1 準備工作
    9.2 操作步驟
    9.3 示例說明
  第10章 使用MapReduce編寫一個單詞統計應用並運行(初級)
    10.1 準備工作
    10.2 操作步驟
    10.3 示例說明
    10.4 補充說明
  第11章 在分佈式環境中安裝Hadoop並運行單詞統計應用(初級)
    11.1 準備工作
    11.2 操作步驟
    11.3 示例說明
  第12章 編寫格式化器(中級)
    12.1 準備工作
    12.2 操作步驟
    12.3 示例說明
    12.4 補充說明
  第13章 分析——使用MapReduce繪製頻度分佈(中級)
    13.1 準備工作

    13.2 操作步驟
    13.3 示例說明
    13.4 補充說明
  第14章 關係操作——使用MapReduce連接兩個數據集(高級)
    14.1 準備工作
    14.2 操作步驟
    14.3 示例說明
    14.4 補充說明
  第15章 使用MapReduce實現集合操作(中級)
    15.1 準備工作
    15.2 操作步驟
    15.3 示例說明
    15.4 補充說明
  第16章 使用MapReduce實現交叉相關(中級)
    16.1 準備工作
    16.2 操作步驟
    16.3 示例說明
    16.4 補充說明
  第17章 使用MapReduce實現簡單搜索(中級)
    17.1 準備工作
    17.2 操作步驟
    17.3 示例說明
    17.4 補充說明
  第18章 使用MapReduce實現簡單的圖操作(高級)
    18.1 準備工作
    18.2 操作步驟
    18.3 示例說明
    18.4 補充說明
  第19章 使用MapReduce實現Kmeans(高級)
    19.1 準備工作
    19.2 操作步驟
    19.3 示例說明
    19.4 補充說明