大數據技術入門 — Hadoop + Spark

於海浩劉誌坤主編韓詠孫栩副主編

預覽內頁

出版商: 清華大學
出版日期: 2022-01-01
定價: $299
售價: 7.9 折 $236
語言: 簡體中文
頁數: 208
裝訂: 平裝
ISBN: 7302591814
ISBN-13: 9787302591818
相關分類: Hadoop、Spark、Machine Learning

立即出貨 (庫存=1)

買這商品的人也買了...

$1,662

High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark (Paperback)
$356

Spark 全棧數據分析
~~$580~~ $452

Pandas 資料分析實戰：使用 Python 進行高效能資料處理及分析 (Learning pandas : High-performance data manipulation and analysis in Python, 2/e)
~~$880~~ $695

Spark 技術手冊｜輕鬆寫意處理大數據 (Spark: The Definitive Guide｜Big Data Processing Made Simple)
~~$620~~ $465

精通嵌入式 Linux 程式設計 (暢銷回饋版)
~~$600~~ $468

大數據時代超吸睛視覺化工具與技術：Tableau 資料分析師進階高手養成實戰經典
~~$680~~ $537

必學！Python 資料科學‧機器學習最強套件－ NumPy、Pandas、Matplotlib、OpenCV、scikit-learn、tf.Keras
~~$980~~ $774

資料密集型應用系統設計 (Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems)
~~$599~~ $509

資料科學的建模基礎 : 別急著 coding！你知道模型的陷阱嗎？
~~$880~~ $695

完全自學！Go 語言 (Golang) 實戰聖經 (The Go Workshop: Learn to write clean, efficient code and build high-performance applications with Go)
$297

實戰大數據 (Hadoop + Spark + Flink) 從平臺構建到交互式數據分析 (離線/實時)
$374

Kettle 構建 Hadoop ETL 系統實踐
~~$690~~ $545

AutoML 自動化機器學習：用 AutoKeras 超輕鬆打造高效能 AI 模型 (Automated Machine Learning with AutoKeras: Deep learning made accessible for everyone with just few lines of coding)
~~$580~~ $522

人工智慧, 2/e
$520

圖解 Spark 大數據快速分析實戰
~~$680~~ $537

最新 Java 程式語言 (修訂第七版)
~~$630~~ $535

大數據驅動商業決策 - 13個 RapidMiner 商業預測操作實務
~~$800~~ $624

Martin Fowler 的企業級軟體架構模式：軟體重構教父傳授 51個模式，活用設計思考與架構決策 (Patterns of Enterprise Application Architecture)
$706

精通 Hadoop 3
~~$500~~ $425

Azure DevOps 顧問實戰
~~$540~~ $426

MySQL 新手入門超級手冊, 3/e (適用 MySQL 8.x 與 MariaDB 10.x)
~~$580~~ $458

AI 和 ChatGPT 人類和機器共生的未來
~~$480~~ $379

圖解 AI 人工智慧
~~$479~~ $455

Apache Spark大數據分析：基於Azure Databricks雲平臺
~~$580~~ $458

資料治理技術手冊 (Data Governance: The Definitive Guide)

商品描述

本書基礎理論、應用開發以及實際案例相結合，圍繞Hadoop、Spark生態圈循序漸進地介紹關於大數據技術領域中的基礎知識、應用開發技術和基於Spark的常見機器學習算法，最後以兩個實戰案例全面、系統地應用了本書介紹的基礎知識和應用開發方法。全書共14章，分別為大數據概述、Hadoop簡介及安裝部署、HDFS、MapReduce計算框架、Hive數據倉庫、HBase分佈式數據庫、Spark基礎、Spark RDD彈性分佈式數據集、Spark SQL、Spark Streaming實時計算框架、Spark Streaming與Flume、Kafka的整合、Spark MLlib 機器學習、實戰案例——分佈式優惠券後臺應用系統和實戰案例——新聞話題實時統計分析系統，書中的每個知識點都有相應的實現代碼和實例。本書主要面向廣大從事大數據分析、應用開發、機器學習、數據挖掘的專業人員以及從事高校信息技術專業的教師和高等院校的在讀學生及相關領域的廣大科研人員。

作者簡介

於海浩，男，1974年1月生，高級工程師，黑龍江工程學院計算機學院教師，主講大數據實踐和人工智能課程，研究方向為大數據處理與挖掘，深度學習。主持或參與國家、省部級、廳局級項目6項。以第一作者發表論文10餘篇，作為高級項目經理和企業管理者組織了黑龍江省電力營銷系統、地下管廊運維監管平臺、智慧城管、城鎮職工醫療系統的項目管理工作，有任企業技術總監的職務經歷。

目錄大綱

第1章大數據概述
1.1大數據的研究背景
1.2大數據的定義及其技術特點
1.2.1大數據的定義
1.2.2大數據的基本特點
1.2.3典型的大數據處理需求與計算特徵
1.3大數據處理的主要技術特點與難點
1.4研究大數據的意義
1.5本章小結
第2章Hadoop簡介及安裝部署
2.1Hadoop簡介及生態體系
2.2Hadoop集群架構
2.3Hadoop集群運行環境搭建
2.3.1Hadoop安裝配置過程
2.3.2驗證Hadoop的安裝
2.4本章小結
第3章HDFS
3.1相關基本概念
3.2HDFS存儲架構
3.2.1HDFS寫入流程
3.2.2HDFS讀取流程
3.3HDFS的優點與缺點
3.3.1HDFS的優點
3.3.2HDFS的缺點
3.4HDFS Shell常用命令
3.5HDFS的Java API
3.6本章小結
第4章MapReduce計算框架
4.1MapReduce核心思想
4.2MapReduce的工作原理
4.3MapReduce的運行機制
4.4MapReduce數據本地化
4.5MapReduce編程
4.5.1MapReduce運行模式
4.5.2MapReduce編程組件與數據類型
4.6MapReduce編程示例
4.6.1單詞計數
4.6.2倒排索引
4.7本章小結
第5章Hive數據倉庫
5.1Hive概述
5.1.1Hive簡介
5.1.2Hive的架構
5.1.3Hive的優缺點
5.2Hive的安裝
5.2.1安裝MySQL
5.2.2安裝Hive
5.3Hive數據庫相關操作
5.3.1Hive的數據類型
5.3.2Hive基礎SQL語法
5.4本章小結
第6章HBase分佈式數據庫
6.1HBase概述
6.1.1HBase的架構
6.1.2HBase的特點
6.1.3HBase數據存儲方式
6.1.4HBase尋址機制
6.2HBase的安裝
6.3HBase數據模型
HBase的Shell操作
6.5HBase常用的Java API及示例程序
6.5.1HBase常用的Java API
6.5.2程序示例
6.6本章小結
第7章Spark基礎
7.1Spark概述
7.1.1Spark的主要特點
7.1.2Spark生態系統
7.1.3Spark相對於Hadoop MapReduce的優勢
7.2Spark的安裝
7.2.1Spark的部署方式
7.2.2Spark的安裝
7.3Spark運行架構與原理
7.4Spark運行流程
7.5本章小結
第8章Spark RDD彈性分佈式數據集
8.1RDD的設計與運行原理
8.1.1RDD的概念
8.1.2RDD的分區
8.1.3RDD的依賴關係
8.1.4RDD在Spark中的運行流程
8.1.5RDD容錯機制
8.2RDD API編程
8.2.1RDD的創建
8.2.2RDD的操作
8.3程序示例：倒排索引
8.4本章小結
第9章Spark SQL
9.1Spark SQL概述
9.1.1Spark SQL簡介
9.1.2Spark SQL的架構
9.2DataFrame
9.2.1DataFrame簡介
9.2.2DataFrame的創建
9.2.3DataFrame的常用操作
9.3Dataset
9.4Spark SQL編程
9.4.1DataFrame操作
9.4.2Spark SQL 讀寫MySQL數據庫
9.4.3Spark SQL 讀寫Hive
9.5本章小結
第10章 Spark Streaming實時計算框架
10.1Spark Streaming概述
10.1.1流數據和流計算
10.1.2Spark Streaming簡介
10.1.3DStream簡介
10.2DStream編程
10.2.1DStream轉換操作
10.2.2DStream輸出操作相關的方法
10.3DStream編程示例
10.3.1DStream編程基本步驟——文件流
10.3.2無狀態轉換操作
10.3.3有狀態轉換操作
10.3.4輸出操作
10.4本章小結
第11章Spark Streaming與Flume、Kafka的整合
11.1Flume簡介及安裝
11.1.1Flume簡介
11.1.2Flume的安裝
11.2Kafka簡介及安裝
11.2.1Kafka簡介
11.2.2Kafka的安裝
11.3Flume與Kafka的區別和側重點
11.4Spark Streaming與Flume、Kafka的整合與開發
11.5本章小結
第12章Spark MLlib機器學習
12.1機器學概念
12.1.1機器學定義
12.1.2機器學分類
12.2MLlib簡介
12.3Spark MLlib的數據類型
12.3.1本地向量
12.3.2標註點
12.3.3本地矩陣
12.4Spark MLlib機器學習示例
12.4.1特徵抽取——TFIDF
12.4.2分類與回歸——線性回歸
12.4.3分類與回歸——邏輯回歸
12.4.4協同過濾——電影推薦
12.5本章小結
第13章實戰案例——分佈式優惠券後臺應用系統
13.1系統簡介
13.2整體架構
13.3表結構設計
13.4系統實現
13.4.1商戶投放子系統
13.4.2用戶消費子系統
13.5系統運行測試
13.5.1啟動系統
13.5.2商戶投放子系統測試
13.5.3用戶消費子系統測試
13.6本章小結
第14章實戰案例——新聞話題實時統計分析系統
14.1系統簡介
14.2系統總體架構
14.3表結構設計
14.4系統實現
14.4.1模擬日誌生成程序
14.4.2Flume配置
14.4.3配置Kafka
14.4.4Spark Streaming開發
14.4.5WebSocket和前端界面開發
14.5系統運行測試
14.6本章小結
參考文獻