實戰大數據 Hadoop+Spark+Flink 從平臺構建到交互式數據分析 (離線/實時)第2版

楊俊 王年明 謝誌剛

  • 出版商: 機械工業
  • 出版日期: 2025-12-01
  • 售價: $594
  • 語言: 簡體中文
  • ISBN: 7111798538
  • ISBN-13: 9787111798538
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書以一個完整的大數據項目為主線,系統性講解Hadoop、Spark、Flink等主流大數據技術的核心原理與開發實踐,融合離線分析、實時計算、數據倉庫、推薦系統與數據可視化五大核心場景,打造“數據采集-存儲-計算-應用”全鏈路閉環。全書共9章:大數據技術概述、搭建IDEA開發環境及Linux虛擬機、基於Hadoop構建大數據平臺、基於HBase和Kafka構建海量數據存儲與交換系統、用戶行為離線分析—構建數據采集和分析平臺、基於Spark的用戶行為實時分析、基於Flink的用戶行為實時分析、基於Flink的新聞資訊推薦系統、新聞資訊系統數據可視化。

相較第1版,本書進行了三方面的內容升級。技術版本革新:全面適配Hadoop 3生態、Spark結構化流處理及Flink流批一體架構,覆蓋Exactly-Once語義、自適應調優等生產級特性;模塊能力擴展:新增Hive與DataX多源異構數據倉庫構建、Flink SQL流批一體化開發、機器學習融合的推薦系統開發三大實戰模塊;技術棧升級:數據可視化采用SpringBoot和Vue前後端分離架構,替代傳統的Servlet、JSP方案,實現更高效的數據展示與交互設計。

本書既可以作為大數據工程師的開發手冊,也可以作為高校大數據及相關專業的教材。

大數據技術作為數字化轉型的核心驅動力,已深度融入金融、醫療、零售、智能制造等各個領域,重構著企業的決策模式與業務形態。通過高效處理海量、多源、異構數據,大數據技術不僅為企業提供了實時洞察能力,更在用戶畫像、智能推薦、風險預測等場景中展現出巨大價值,成為企業構築競爭壁壘的戰略性技術資產。

本書作為一本實用的大數據技術教程,以“數據采集-存儲-計算-應用”技術鏈路為主線,圍繞一個完整的新聞資訊大數據分析項目展開,系統講解Hadoop、Spark、Flink三大核心框架及其生態組件的實戰應用。本書在第1版的基礎上進行了全面的內容升級,改版升級包括以下三方面。

版本升級:Hadoop、Spark及Flink等核心技術版本升級到3.0或現行穩定版本。

項目增加:新增了大數據倉庫項目及個性化推薦項目。

技術更新:數據可視化項目由Servlet技術更新為SpringBoot和Vue技術來實現。

本書延續了第1版“場景驅動式”教學的特色:從離線分析到實時計算,從數據倉庫構建到推薦系統開發,最終實現數據可視化閉環。讀者不僅能掌握HDFS、YARN、HBase、Kafka、Hive、Spark、Flink等技術要點,更能獲得從0到1搭建企業級大數據平臺的完整項目經驗。

全書共9章,層層遞進構建知識體系:

第 1 章 大數據技術概述。解析大數據核心特征與平臺架構,剖析大數據工程師技能樹,並通過需求分析案例展示如何設計可擴展的大數據系統架構。

第 2 章 搭建IDEA開發環境及Linux虛擬機。詳解開發環境配置與虛擬化技術,為後續分布式集群搭建奠定基礎,培養讀者的跨平臺開發能力。

第 3 章 基於Hadoop構建大數據平臺。深入講解ZooKeeper、HDFS、YARN核心原理與集群部署,通過MapReduce編程實踐揭示分布式計算本質。

第 4 章 基於HBase和Kafka構建海量數據存儲與交換系統。對比行式與列式存儲差異,實現HBase集群搭建與Kafka消息隊列配置,解決高並發讀寫與實時數據流處理難題。

第 5 章 用戶行為離線分析—構建數據采集和分析平臺。集成Flume、DataX實現多源數據采集,基於Hive構建維度建模數據倉庫,完成海量數據的ETL(抽取、轉換、加載)與OLAP(在線分析處理)分析。

第 6 章 基於Spark的用戶行為實時分析。通過Spark Core、Spark Streaming、Spark SQL及Spark Structured Streaming四大模塊,實現批流一體處理,對比微批與持續處理模式的技術選型。

第 7 章 基於Flink的用戶行為實時分析。深入講解Flink核心架構、集群部署及實時計算,通過新聞資訊項目的實時分析場景,完整展現Flink在低延遲、高吞吐、精確狀態管理等方面的技術特性。

第 8 章 基於Flink的新聞資訊推薦系統。構建涵蓋召回、排序、調整的完整推薦鏈路,集成協同過濾與深度學習模型,實現新聞資訊項目個性化推薦。

第 9 章 新聞資訊系統數據可視化。采用SpringBoot和Vue實現前後端分離架構,通過ECharts完成多維數據可視化,並講解輕量化部署與性能優化策略。

通過以上內容,全書實現了以下三方面目標。

項目驅動學習:以新聞資訊分析系統貫穿全書,涵蓋13個核心組件部署與5大項目實戰案例。

技術縱深對比:對比MapReduce、Spark和Flink三代計算引擎,Hive、Spark SQL和Flink SQL三種查詢範式。

開發流程全覆蓋:從數據采集、存儲、計算到推薦系統與可視化展示,完整再現企業級開發流程。

除此之外,本書配套學習資源極為豐富,為讀者免費提供容量高達30GB的學習資料包,包含軟件安裝包、實驗數據集、配置文件、腳本文件及配套學習視頻,可供讀者更為系統、全面地學習大數據技術。讀者可通過掃碼關註“IT有得聊”公眾號,回覆獲取本書配套學習資源下載鏈接,或添加作者微信john_1125進行技術交流。

本書由楊俊、王年明、謝誌剛編著,楊俊主要負責編寫第1~7章,王年明主要負責編寫第9章,謝誌剛主要負責編寫第8章。

大數據技術生態日新月異,書中若有疏漏之處,懇請讀者通過出版社或作者渠道反饋意見,我們將通過在線資源持續更新前沿技術內容。希望本書能成為您通往大數據工程師之路的明燈,助力在數據洪流中乘風破浪!

作者簡介

楊俊,大數據架構師。大數據技術達人,Hadoop源碼級技術專家,擅長Hadoop、Spark、FIink等主流大數據生態技術。具有十

余年的大數據開發經驗,參與過十余個重量級大數據項目。曾任廣電數據咨詢公司大數據高級架構師,負責大數據平臺架構設計與實施,並構建企業級數據倉庫。暢銷書《Hadoop大數據技術基礎與應用》作者。51CTO知名培訓講師,擁有40余萬粉絲,具有豐富的大數據技術培訓經驗,為數十家企業、院校開展過大數據技術課程培訓。

類似商品