圖解大數據分析

[日]渡部徹太郎

  • 出版商: 化學工業
  • 出版日期: 2023-07-01
  • 定價: $408
  • 售價: 8.5$347
  • 語言: 簡體中文
  • 裝訂: 平裝
  • ISBN: 7122431940
  • ISBN-13: 9787122431943
  • 相關分類: 大數據 Big-dataData Science
  • 下單後立即進貨 (約4週~6週)

商品描述

本書通過大量的繪圖和詳細的說明,從技術層面以簡單易懂的形式講述大數據分析。
這是一本從系統結構搭建到實際開發逐步推進的教科書。
書中的知識點包括大數據分析時所需的分佈式處理、機器學習,以及分佈式存儲、分佈式計算、
開發時可能遇到的瓶頸,還包括大數據的收集、積累、活用以及元數據的使用與管理等。
本書適合大數據領域的廣大愛好者、商務人士和工程技術人員用於了解、學習、掌握、
運用大數據技術進行大數據分析,也適合作為該領域的職業院校和高校本科相關專業的教材及研究生輔助教材。

目錄大綱

目錄:

第1章大數據分析概述 
1.1 大數據和分佈式處理 
網絡的普及導致了大量數據的增加002 
1.2 非結構化數據的增加和機器學習 
分析文本、聲音、圖像等數據006 
1.3 大數據分析系統 
在分佈式處理與機器學習驅動下將數據利潤化010 
1.4 企業中大數據活用的各個階段 
大數據分析要從一小步開始014 
1.5 活用大數據分析時所需的三個角色 
數據業務員、科學分析員、工程技術員020 
1.6 工程技術員的價值在哪裡 
為什麼完成了驗證實驗後仍然無法實現真正的系統化026 

第2章大數據分析系統的結構 
2.1 整體結構概述 
數據的收集、積累、活用032 
2.2 數據的生成和收集 
利用業務系統生成數據,利用分析系統收集數據036 
2.3 數據的積累 
數據池與數據倉庫040 
2.4 數據的活用 
應用於企業決策和增加利潤044 

第3章分佈式處理的基礎知識 
3.1 對瓶頸問題的分析 
系統性能上的一些問題048 
3.2 上述三種瓶頸以外的與性能相關的問題 
內存枯竭,以及沒有瓶頸但性能仍然很差的原因052 
3.3 分佈式存儲 
消除磁盤瓶頸的技術056 
3.4 分佈式計算 
消除處理器瓶頸的技術060 
3.5 分佈式系統的網絡 
消除網絡的瓶頸064 
3.6 資源管理器 
支撐分佈式處理的資源管理068 
3.7 分佈式處理的開發方式 
Hadoop、自行開發、雲服務070 

第4章機器學習的基礎知識 
4.1 機器學習 
對變換成向量的數據進行處理的函數076 
4.2 數據的準備和預處理 
機器學習的開發過程(前篇) 082 
4.3 模型預估與系統化 
機器學習的開發過程(中篇) 086 
4.4 正式發布與性能提升 
機器學習的開發過程(後篇) 090 
4.5 深度學習 
引發機器學習熱潮的火種094 
4.6 機器學習工具 
工程師必備的幾個重要工具098 
4.7 科學分析員與工程技術員的不同角色 
系統化與數據準備等大量的工作104 

第5章大數據的收集 
5.1 批數據收集和流數據收集 
數據收集的種類108 
5.2 文件數據的收集與文件格式 
文件形式數據的收集112 
5.3 基於SQL的數據收集 
從數據庫中收集數據(前篇) 116 
5.4 基於數據輸出和同步更新日誌的數據收集 
從數據庫中收集數據(後篇) 120 
5.5 API數據收集與刮擦收集 
其他的批數據收集方式124 
5.6 批數據收集的開發方法 
可以利用ETL軟件製品也可以自行開發128 
5.7 分佈式隊列與流處理 
流數據收集概述132 
5.8 流數據收集中的分佈式隊列 
了解分佈式隊列的特性136 
5.9 生產者、分佈式隊列和消費者 
流數據收集的開發方法140 
5.10 應對數據結構的變化 
數據結構會隨著業務的發展而變化143 

第6章大數據的積累 
6.1 數據池與數據倉庫 
要分別準備好原始數據和用於分析的數據148 
6.2 分析型數據庫 
操作型數據庫與分析型數據庫的不同之處152 
6.3 面向列的數據格式化 
在列方向上壓縮數據後實現分析處理的高速化156 
6.4 SQL on Hadoop 
分析型DB的選擇方法(前篇) 160 
6.5 DWH製品 
分析型DB的選擇方法(後篇) 166 

第7章大數據的活用 
7.1 數據市場 
根據不同目的來加工數據172 
7.2 即席分析 
可以自主地分析數據並進行決策178 
7.3 構築即席分析環境 
支持數據利用者和進行資源管理的必要性182 
7.4 數據可視化 
任何人都可以基於數據做出決策186 
7.5 數據應用程序 
互聯網企業的活用案例190 

第8章元數據的管理 
8.1 整體概念和靜態元數據 
元數據管理(前篇) 194 
8.2 動態元數據和元數據管理的實現方法 
元數據管理(後篇) 198 
8.3 數據結構管理 
如何定義數據202 
8.4 數據沿襲管理 
數據從何而來,又去往何處208 
8.5 數據新鮮度的管理 
表明這是什麼時候的數據212