Programming Hive (Paperback)
暫譯: 編程 Hive (平裝本)

Edward Capriolo, Dean Wampler, Jason Rutherglen

  • 出版商: O'Reilly
  • 出版日期: 2012-10-30
  • 售價: $1,570
  • 貴賓價: 9.5$1,492
  • 語言: 英文
  • 頁數: 350
  • 裝訂: Paperback
  • ISBN: 1449319335
  • ISBN-13: 9781449319335
  • 相關翻譯: Hive 編程指南 (Programming Hive) (簡中版)
  • 已過版

買這商品的人也買了...

相關主題

商品描述

Need to move a relational database application to Hadoop? This comprehensive guide introduces you to Apache Hive, Hadoop’s data warehouse infrastructure. You’ll quickly learn how to use Hive’s SQL dialect—HiveQL—to summarize, query, and analyze large datasets stored in Hadoop’s distributed filesystem.

This example-driven guide shows you how to set up and configure Hive in your environment, provides a detailed overview of Hadoop and MapReduce, and demonstrates how Hive works within the Hadoop ecosystem. You’ll also find real-world case studies that describe how companies have used Hive to solve unique problems involving petabytes of data.

  • Use Hive to create, alter, and drop databases, tables, views, functions, and indexes
  • Customize data formats and storage options, from files to external databases
  • Load and extract data from tables—and use queries, grouping, filtering, joining, and other conventional query methods
  • Gain best practices for creating user defined functions (UDFs)
  • Learn Hive patterns you should use and anti-patterns you should avoid
  • Integrate Hive with other data processing programs
  • Use storage handlers for NoSQL databases and other datastores
  • Learn the pros and cons of running Hive on Amazon’s Elastic MapReduce

商品描述(中文翻譯)

需要將關聯式資料庫應用程式移至 Hadoop 嗎?這本全面的指南將介紹 Apache Hive,Hadoop 的資料倉儲基礎架構。您將快速學會如何使用 Hive 的 SQL 方言——HiveQL,來彙總、查詢和分析儲存在 Hadoop 分散式檔案系統中的大型資料集。

這本以範例為主的指南將教您如何在您的環境中設置和配置 Hive,提供 Hadoop 和 MapReduce 的詳細概述,並展示 Hive 如何在 Hadoop 生態系統中運作。您還會找到真實案例研究,描述公司如何使用 Hive 解決涉及數PB(petabytes)資料的獨特問題。

- 使用 Hive 創建、修改和刪除資料庫、資料表、視圖、函數和索引
- 自訂資料格式和儲存選項,從檔案到外部資料庫
- 從資料表中加載和提取資料——並使用查詢、分組、過濾、聯接和其他傳統查詢方法
- 獲得創建使用者定義函數(UDFs)的最佳實踐
- 學習應該使用的 Hive 模式和應該避免的反模式
- 將 Hive 與其他資料處理程式整合
- 使用 NoSQL 資料庫和其他資料儲存的儲存處理器
- 瞭解在 Amazon 的 Elastic MapReduce 上運行 Hive 的優缺點