數據倉庫與數據挖掘(Python+Hadoop+Hive)(微課視頻版)

魏偉一、張國治、秦紅武

  • 出版商: 清華大學
  • 出版日期: 2023-04-01
  • 定價: $359
  • 售價: 8.5$305
  • 語言: 簡體中文
  • ISBN: 7302625735
  • ISBN-13: 9787302625735
  • 相關分類: Hadoop
  • 下單後立即進貨 (約4週~6週)

  • 數據倉庫與數據挖掘(Python+Hadoop+Hive)(微課視頻版)-preview-1
  • 數據倉庫與數據挖掘(Python+Hadoop+Hive)(微課視頻版)-preview-2
  • 數據倉庫與數據挖掘(Python+Hadoop+Hive)(微課視頻版)-preview-3
數據倉庫與數據挖掘(Python+Hadoop+Hive)(微課視頻版)-preview-1

相關主題

商品描述

本書主要介紹數據倉庫與數據挖掘的基本概念和方法,包括數據預處理、數據倉庫與聯機分析處理、數據倉庫設計與開發、回歸分析、關聯規則挖掘、分類、聚類、神經網絡與深度學習、離群點檢測以及文本和時序數據挖掘等內容。 各章力求原理敘述清晰,易於理解,突出理論聯系實際, 輔以代碼實踐與指導,引領讀者更好地理解與應用算法,快速邁進數據倉庫與數據挖掘領域 。 本書可作為高等學校電腦科學與技術、數據科學與大數據技術等相關專業的教材,也可作為科研人員、工程師和大數據愛好者的參考書。

目錄大綱

目錄

掃一掃

源碼下載

第1章緒論

1.1數據倉庫概述

1.1.1數據倉庫的定義及特點

1.1.2數據倉庫與操作型數據庫的關系

1.1.3數據倉庫的組成

1.1.4數據倉庫的應用

1.1.5基於Hadoop/Spark的數據倉庫技術

1.2數據挖掘概述

1.2.1數據挖掘的概念

1.2.2數據挖掘的主要任務

1.2.3數據挖掘的數據源

1.2.4數據挖掘使用的技術

1.2.5數據挖掘存在的主要問題

1.2.6數據挖掘建模的常用工具

1.2.7Python數據挖掘常用庫

1.3數據倉庫與數據挖掘的區別與聯系

1.3.1數據倉庫與數據挖掘的區別

1.3.2數據倉庫與數據挖掘的聯系

1.4小結

習題1

第2章認識數據

2.1屬性及其類型

2.1.1屬性

2.1.2屬性類型

2.2數據的基本統計描述

2.2.1中心趨勢度量

2.2.2數據散佈度量

2.3數據可視化

2.3.1基於像素的可視化技術

2.3.2幾何投影可視化技術

2.3.3基於圖符的可視化技術

2.3.4層次可視化技術

2.3.5可視化復雜對象和關系

2.3.6高維數據可視化

2.3.7Python數據可視化

2.4數據對象的相似性度量

2.4.1數據矩陣和相異性矩陣

2.4.2標稱屬性的相似性度量

2.4.3二元屬性的相似性度量

2.4.4數值屬性的相似性度量

2.4.5序數屬性的相似性度量

2.4.6混合類型屬性的相似性

2.4.7餘弦相似性

2.4.8距離度量的Python實現

2.5小結

習題2

第3章數據預處理

3.1數據預處理的必要性

3.1.1原始數據中存在的問題

3.1.2數據質量要求

3.2數據清洗

3.2.1數據清洗方法

3.2.2利用Pandas進行數據清洗

3.3數據集成

3.3.1數據集成過程中的關鍵問題

3.3.2利用Pandas合並數據

3.4數據標準化

3.4.1離差標準化數據

3.4.2標準差標準化數據

3.5數據歸約

3.5.1維歸約

3.5.2數量歸約

3.5.3數據壓縮

3.6數據變換與數據離散化

3.6.1數據變換的策略

3.6.2Python數據變換與離散化

3.7利用sklearn進行數據預處理

3.8小結

習題3

第4章數據倉庫與聯機分析處理

4.1數據倉庫的體系

4.1.1數據倉庫體系結構

4.1.2數據ETL

4.1.3數據集市

4.1.4元數據

4.2多維數據模型與OLAP

4.2.1多維數據模型的相關概念

4.2.2OLAP的基本分析操作

4.2.3多維數據模型的實現

4.3數據倉庫的維度建模

4.3.1數據倉庫維度建模概述

4.3.2星形模型

4.3.3雪花模型

4.4數據倉庫發展

4.4.1動態數據倉庫

4.4.2數據中心

4.4.3數據中台

4.5小結

習題4

第5章數據倉庫設計與開發

5.1數據倉庫設計概述

5.1.1數據倉庫設計的特點

5.1.2數據倉庫設計與業務系統模型設計的區別

5.1.3數據倉庫構建模式

5.1.4數據倉庫建立框架

5.2數據倉庫設計

5.2.1數據倉庫規劃、需求分析及概念設計

5.2.2數據倉庫邏輯模型設計

5.2.3數據倉庫物理模型設計

5.2.4數據倉庫部署與維護

5.3基於Hive的數據倉庫實現

5.3.1Hadoop/Hive簡介

5.3.2Hive數據倉庫和數據庫比較

5.3.3Hive常用數據操作

5.3.4利用Hive建立數據倉庫

5.4小結

習題5

第6章回歸分析

6.1回歸分析概述

6.1.1回歸分析的定義與分類

6.1.2回歸分析的過程

6.2一元線性回歸分析

6.2.1一元線性回歸方法

6.2.2一元線性回歸模型的參數估計

6.2.3一元線性回歸模型的誤差方差估計

6.2.4一元線性回歸模型的主要統計檢驗

6.2.5一元線性回歸的Python實現

6.3多元線性回歸

6.3.1多元線性回歸模型

6.3.2多元線性回歸模型的參數估計

6.3.3多元線性回歸的假設檢驗及其評價

6.3.4多元線性回歸的Python實現

6.4邏輯回歸

6.4.1邏輯回歸模型

6.4.2邏輯回歸的Python實現

6.5其他回歸分析

6.5.1多項式回歸

6.5.2嶺回歸

6.5.3Lasso回歸

6.5.4彈性回歸

6.5.5逐步回歸

6.6小結

習題6

第7章關聯規則挖掘

7.1關聯規則挖掘概述

7.2頻繁項集、閉項集和關聯規則

7.3頻繁項集挖掘方法

7.3.1Apriori算法

7.3.2由頻繁項集產生關聯規則

7.3.3提高Apriori算法的效率

7.3.4頻繁模式增長算法

7.3.5使用垂直數據格式挖掘頻繁項集

7.4關聯模式評估方法

7.5Apriori算法應用

7.6小結

習題7

第8章分類

8.1分類概述

8.2決策樹歸納

8.2.1決策樹原理

8.2.2ID3算法

8.2.3C4.5算法

8.2.4CART算法

8.2.5樹剪枝

8.2.6決策樹應用

8.3K近鄰算法

8.3.1算法原理

8.3.2Python算法實現

8.4支持向量機

8.4.1算法原理

8.4.2Python算法實現

8.5樸素貝葉斯分類

8.5.1算法原理

8.5.2高斯樸素貝葉斯分類

8.5.3多項式樸素貝葉斯分類

8.5.4樸素貝葉斯分類應用

8.6模型評估與選擇

8.6.1分類器性能的度量

8.6.2模型選擇

8.7組合分類

8.7.1組合分類方法簡介

8.7.2袋裝

8.7.3提升和AdaBoost

8.7.4隨機森林

8.8小結

習題8

第9章聚類

9.1聚類分析概述

9.1.1聚類分析的概念

9.1.2聚類算法分類

9.2KMeans聚類

9.2.1算法原理

9.2.2算法改進

9.2.3KMeans算法實現

9.3層次聚類

9.3.1算法原理

9.3.2簇間的距離度量

9.3.3分裂層次聚類

9.3.4凝聚層次聚類

9.3.5層次聚類應用

9.4基於密度的聚類

9.4.1算法原理

9.4.2算法改進

9.4.3DBSCAN算法實現

9.5其他聚類方法

9.5.1STING聚類

9.5.2概念聚類

9.5.3模糊聚類

9.6聚類評估

9.6.1聚類趨勢的估計

9.6.2聚類簇數的確定

9.6.3聚類質量的測定

9.7小結

習題9

第10章神經網絡與深度學習

10.1神經網絡基礎

10.1.1神經元模型

10.1.2感知機與多層網絡

10.2BP神經網絡

10.2.1多層前饋神經網絡

10.2.2後向傳播算法

10.2.3BP神經網絡應用

10.3深度學習

10.3.1深度學習概述

10.3.2常用的深度學習算法

10.4小結

習題10

第11章離群點檢測

11.1離群點概述

11.1.1離群點的概念

11.1.2離群點的類型

11.1.3離群點檢測的挑戰

11.2離群點的檢測

11.2.1基於統計學的離群點檢測

11.2.2基於鄰近性的離群點檢測

11.2.3基於聚類的離群點檢測

11.2.4基於分類的離群點檢測

11.3sklearn中的異常檢測方法

11.4小結

習題11

第12章文本和時序數據挖掘

12.1文本數據挖掘

12.1.1文本挖掘概述

12.1.2文本挖掘的過程與任務

12.2文本分析與挖掘的主要方法

12.2.1詞語分詞

12.2.2詞性標註與停用詞過濾

12.2.3文本表徵

12.2.4文本分類

12.2.5文本聚類

12.2.6文本可視化

12.3時序數據挖掘

12.3.1時間序列和時間序列分析

12.3.2時間序列平穩性和隨機性判定

12.3.3自回歸滑動平均模型

12.3.4差分整合移動平均自回歸模型

12.3.5季節性差分自回歸移動平均模型

12.4小結

習題12

第13章數據挖掘案例

13.1良性/惡性乳腺腫瘤預測

13.2泰坦尼克號乘客生還預測

13.3圖像的聚類分割

13.4小結

參考文獻