數據分析實用技術 — 阿裡雲大數據分析師 ACP 認證培訓教程

趙強

  • 出版商: 電子工業
  • 出版日期: 2021-09-01
  • 定價: $336
  • 售價: 8.5$286
  • 語言: 簡體中文
  • 頁數: 264
  • 裝訂: 平裝
  • ISBN: 7121419238
  • ISBN-13: 9787121419232
  • 相關分類: 大數據 Big-dataData Science
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

本書關註大數據分析師所需掌握的最重要的基礎能力。首先,本書闡述了大數據分析師的職業特點。其次,根據數據分析經常涉及的技術要求,按順序介紹了什麽是數據庫,如何使用數據庫,大數據環境下的分佈式數據庫Hadoop、阿裡雲MaxCompute,以及相對應的數據庫查詢語言SQL、MapReduce、Hive、Pig等基本的編程技術。為了提高數據分析工作的質量與效率,本書還詳細介紹了數據項目質量控制的理論和實踐,其中涉及了數據預處理、數據脫敏和臟數據處理的技能知識,同時介紹了在數據項目中SQL編程的優秀實踐方法。作為一本介紹數據分析的入門書籍,本書詳細介紹了數據分析中常見的方法(如EDA),包括指標計算的一些常見形式。在企業環境中,數據分析常常以項目的形式出現,本書也向讀者介紹了數據分析項目是如何承接、分解和實施的。最後,本書還向讀者介紹了常用的數據挖掘技術,如決策樹、聚類分析和關聯分析,讓讀者對算法在數據分析中的應用有直觀的瞭解。本書可作為阿裡雲大數據分析師ACP認證培訓的教材,也可作為高校大數據相關專業的學生教材,還可供希望從事大數據分析工作的讀者閱讀參考。

作者簡介

趙強,杭州決明數據科技有限公司負責人,從事大數據應用與教育近20年,現為加拿大約克大學舒立克商學院MBA特聘教授,阿里雲大學特聘專家教授。
曾服務於世界500強企業中的零售、銀行、電信企業和全球性的管理諮詢公司,參與了眾多國際企業營銷和數據戰略規劃的製定和決策。
對雲計算與大數據應用結合有深刻體會,了解企業的需求,能夠幫助企業製定優化的雲計算大數據應用方案,樂於交流,願意分享,在培訓教育行業有一定知名度。

目錄大綱

目 錄

第1章 大數據分析領域職業介紹
1.1 職業路徑
1.1.1 大數據職業生態
1.1.2 大數據工程師職業方向
1.1.3 大數據分析師職業方向
1.1.4 大數據工作入門
1.2 技能要求
1.2.1 基本職業素養
1.2.2 從數據中挖掘金礦
1.2.3 大數據工程師的技能要求
1.2.4 大數據分析師的技能要求
1.3 工作情況
1.3.1 典型的工作狀態
1.3.2 大數據職業的現狀
1.4 職業前景
1.4.1 大數據職業的發展
1.4.2 大數據的未來
1.4.3 大數據職業的規劃
第2章 初識大數據
2.1 大數據的基礎知識
2.1.1 什麼是大數據
2.1.2 大數據為什麼重要
2.1.3 大數據的維度
2.2 大數據的類型
2.2.1 結構化數據與非結構化數據
2.2.2 幾個大數據的例子
2.3 大數據的行業應用
2.4 企業面臨的大數據挑戰類型
2.4.1 大數據從何而來
2.4.2 企業如何獲取大數據
2.4.3 大數據的存儲問題
2.4.4 大數據對分析人才的要求
2.4.5 大數據帶來的挑戰類型
第3章 數據庫基礎
3.1 數據庫簡介
3.1.1 數據管理技術發展史
3.1.2 數據庫的應用
3.1.3 數據庫系統概述
3.2 關係型數據庫
3.2.1 數據模型概述
3.2.2 關係數據模型
3.2.3 E-R數據模型
3.2.4 關係型數據庫的設計原則
3.3 數據倉庫
3.3.1 數據倉庫的歷史
3.3.2 數據倉庫系統的組成
3.3.3 ETL
3.3.4 數據倉庫與操作型數據庫的關係
3.4 Hadoop與分佈式數據存儲
3.4.1 大數據對存儲技術的挑戰和Hadoop的起源
3.4.2 Hadoop生態圈及系統架構
3.4.3 Hadoop應用場景
3.4.4 Hadoop局限性
3.5 阿里雲MaxCompute
3.5.1 MaxCompute簡介
3.5.2 MaxCompute的基本概念
3.5.3 MaxCompute數據的導入導出
3.5.4 MaxCompute SQL
3.5.5 函數
3.5.6 MaxCompute MapReduce
3.5.7 MaxCompute權限與安全
3.6 常用Linux指令簡介
3.6.1 安裝和登錄指令
3.6.2 文件處理指令
3.6.3 系統管理相關指令
3.6.4 網絡操作指令
3.6.5 系統安全相關指令
3.6.6 其他指令
第4章 數據分析工具與語言
4.1 SQL基礎
4.1.1 SQL簡介
4.1.2 MySQL數據類型
4.1.3 數據定義語言
4.1.4 數據操作語言
4.1.5 join
4.1.6 數據表的合併、交集
4.1.7 SQL實用函數
4.2 MapReduce
4.2.1 MapReduce Job
4.2.2 MapReduce主程序
4.2.3 MapReduce主程序運行詳解
4.2.4 MapReduce數據流與控制流詳解
4.2.5 MapReduce小結
4.3 Hive
4.4 Pig
4.5 HDFS
4.5.1 HDFS的相關概念
4.5.2 HDFS的基本操作
4.5.3 HDFS常用的Java API介紹
第5章 數據可視化
5.1 數據可視化概念
5.1.1 數據可視化的定義與原則
5.1.2 數據可視化的設計思路
5.2 數據可視化元素
5.2.1 表格
5.2.2 柱狀圖
5.2.3 折線圖
5.2.4 餅圖
5.2.5 地圖
5.2.6 散點圖
5.2.7 其他常見圖
5.3 數據可視化設計原則
5.4 DataV設計
5.5 BI報表設計
第6章 數據項目質量控制
6.1 數據質量控制理論
6.1.1 數據質量的五個維度
6.1.2 臟數據類型
6.2 評估數據的質量及其對項目的影響
6.2.1 數據如何創造價值――DIK
6.2.2 數據質量問題對企業創造價值的影響
6.3 數據預處理
6.3.1 數據預處理的五大步驟
6.3.2 數據清洗場景
6.3.3 臟數據清洗過程
6.3.4 臟數據與臟數據清洗的基本方法
6.3.5 臟數據處理的案例
6.3.6 SQL處理臟數據示例
6.4 數據脫敏
6.4.1 確定數據脫敏對象
6.4.2 隱私數據洩露類型
6.4.3 隱私數據脫敏的要求
6.4.4 常見的數據脫敏算法
6.5 數據項目質量控制的類型
第7章 數據編程基礎
7.1 面向分析的數據編程範例
7.1.1 數據項目的特點
7.1.2 數據項目編程的流程
7.1.3 面向分析的數據編程範例
7.2 編程效率和程序運行效率
7.2.1 編程效率
7.2.2 程序運行效率
7.3 編程質量控制流程
第8章 數據項目設計與執行
8.1 數據分析項目計劃管理流程
8.2 數據項目設計方法
8.2.1 項目目標
8.2.2 背景調查
8.2.3 分析範圍
8.2.4 分析結果交付形式
8.3 數據分析項目的分類
8.4 項目前分析和項目績效考評
第9章 數據分析技術
9.1 指標體系
9.1.1 績效指標(KPI)的定義
9.1.2 企業構建指標體系
9.1.3 平衡計分卡常見指標
9.2 數據分析
9.2.1 數據分析的定義
9.2.2 數據分析的目的
9.2.3 數據分析的作用
9.3 探索性數據分析(EDA)
9.3.1 EDA簡介
9.3.2 單一變量探索性分析
9.3.3 多變量探索性分析
9.4 探索性數據分析應用案例
9.4.1 情況介紹
9.4.2 數據介紹
9.4.3 EDA探索分析遵循銀行政策情況
9.4.4 EDA探索分析懶惰的銀行客戶代表
9.4.5 EDA探索分析銀行客戶代表是否執行了有效的溝通
9.5 EDA中的指標變換形式
9.5.1 總量指標
9.5.2 相對指標
第10章 常用數據挖掘技術
10.1 決策樹
10.1.1 決策樹概述
10.1.2 信息熵
10.1.3 ID3算法
10.1.4 C4.5算法
10.1.5 CART算法
10.2 聚類分析
10.2.1 聚類概述
10.2.2 樣本間距離
10.2.3 K-means聚類
10.2.4 群體距離
10.2.5 層次聚類
10.2.6 聚類算法的評估
10.3 關聯分析
10.3.1 關聯規則量化指標
10.3.2 Apriori算法