Python數據挖掘實戰（微課版）

王磊邱江濤

預覽內頁

出版商: 人民郵電
出版日期: 2023-08-01
定價: $419
售價: $418
語言: 簡體中文
頁數: 272
ISBN: 7115620393
ISBN-13: 9787115620392
相關分類: Data-mining

下單後立即進貨 (約4週~6週)

商品描述

數據挖掘旨在發現蘊含在數據中的有價值的數據模式、知識或規律，是目前非常熱門的研究領域。理解數據挖掘模型的原理、方法並熟練掌握其實現技術是數據挖掘從業者必備的能力。

本書從理論模型和技術實戰兩個角度，系統講述數據挖掘的基本流程、模型方法、實現技術及案例應用，幫助讀者系統地掌握數據挖掘的核心技術，培養讀者從事數據挖掘工作的基本能力。全書共12章，主要內容包括數據探索、數據預處理、特征選擇、基礎分類模型及回歸模型、集成技術、聚類分析、關聯規則分析、時間序列挖掘、異常檢測、智能推薦等。除第1章、第2章外，本書以一章對應一個主題的形式完整描述相應主題的數據挖掘模型，簡潔、清晰地介紹其基本原理和算法步驟，並結合Python語言介紹數據挖掘模型的實現技術，同時結合案例分析數據挖掘模型在數據挖掘中的應用。此外，書中還通過大量的圖、表、代碼、示例幫助讀者快速掌握相關內容。

本書適合作為相關專業本科生和研究生的數據挖掘課程的教材，也可以作為數據挖掘技術愛好者或從業者的入門參考書。

作者簡介

為高等院校計算機科學與技術、數據科學與大數據及相關專業的數據挖掘課程教材，也可作為數據挖掘相關從業者的參考用書。

目錄大綱

第 1章緒論 1

1.1 數據挖掘概述 1

1.1.1 基本概念 1

1.1.2 數據挖掘的典型應用場景 3

1.1.3 數據挖掘的演化歷程 3

1.2 數據挖掘的一般流程 5

1.3 數據挖掘環境的配置 6

1.3.1 常用的數據挖掘工具 6

1.3.2 Anaconda 3下載和安裝 8

1.4 本章小結 11

習題 11

第 2章 Python數據挖掘模塊 12

2.1 NumPy 12

2.1.1 Ndarray的創建 13

2.1.2 Ndarray的屬性 16

2.1.3 索引和切片 17

2.1.4 排序 19

2.1.5 NumPy的數組運算 19

2.1.6 NumPy的統計函數 20

2.2 Pandas 21

2.2.1 Pandas的數據結構 21

2.2.2 查看和獲取數據 23

2.2.3 Pandas的算術運算 25

2.2.4 Pandas的匯總和描述性統計

函數 26

2.2.5 Pandas的其他常用函數 28

2.2.6 Pandas讀寫文件 31

2.3 Matplotlib 33

2.3.1 Matplotlib基本繪圖元素 33

2.3.2 常用的Matplotlib圖形繪制 37

2.4 Scikit-learn 40

2.5 本章小結 43

習題 43

第3章數據探索 44

3.1 數據對象與特征 44

3.1.1 特征及其類型 44

3.1.2 離散和連續特征 45

3.2 數據統計描述 45

3.2.1 集中趨勢 46

3.2.2 離中趨勢 47

3.3 數據可視化 48

3.3.1 散點圖 48

3.3.2 箱線圖 50

3.3.3 頻率直方圖 51

3.3.4 柱狀圖 52

3.3.5 餅圖 53

3.3.6 散點圖矩陣 54

3.4 相關性和相似性度量 56

3.4.1 相關性度量 56

3.4.2 相似性度量 60

3.5 本章小結 63

習題 63

第4章數據預處理 64

4.1 數據集成 64

4.2 數據清洗 68

4.2.1 重復值處理 68

4.2.2 缺失值處理 71

4.2.3 異常值處理 76

4.3 數據變換 77

4.3.1 數據規範化 77

4.3.2 數值特征的二值化和離散化 81

4.3.3 標稱特征的數值化處理 83

4.4 數據規約 85

4.4.1 樣本規約 86

4.4.2 維度規約 88

4.4.3 數據壓縮 90

4.5 本章小結 90

習題 91

第5章特征選擇 92

5.1 特征選擇方法概述 92

5.2 過濾法 93

5.2.1 單變量過濾方法 93

5.2.2 多變量過濾方法 99

5.2.3 過濾法的優缺點 100

5.2.4 綜合實例 100

5.3 包裝法 102

5.3.1 遞歸特征消除 103

5.3.2 序列特征選擇 104

5.3.3 包裝法的優缺點 106

5.4 嵌入法 106

5.4.1 基於正則化線性模型的方法 107

5.4.2 基於樹模型的方法 109

5.4.3 嵌入法的優缺點 109

5.5 本章小結 110

習題 110

第6章基礎分類模型及回歸模型 111

6.1 基本理論 111

6.1.1 分類模型 111

6.1.2 欠擬合和過擬合 112

6.1.3 二分類和多分類 112

6.1.4 線性及非線性分類器 113

6.2 樸素貝葉斯分類器 113

6.2.1 基本原理 113

6.2.2 基於Python的實現 115

6.3 k近鄰分類器 118

6.3.1 基本原理 118

6.3.2 基於Python的實現 119

6.4 決策樹 120

6.4.1 基本原理 120

6.4.2 屬性選擇方法 121

6.4.3 例子：計算信息增益 123

6.4.4 剪枝 124

6.4.5 基於CART決策樹的分類 125

6.4.6 進一步討論 127

6.5 人工神經網絡 127

6.5.1 人工神經網絡簡介 127

6.5.2 BP神經網絡 128

6.5.3 基於BP神經網絡的分類 131

6.6 支持向量機 132

6.6.1 支持向量機的原理 133

6.6.2 支持向量分類的Python

實現 137

6.7 模型的性能評價 138

6.7.1 分類模型的評價指標 138

6.7.2 模型的評估方法 140

6.8 案例：信用評分模型 143

6.8.1 案例描述 143

6.8.2 探索性數據分析和預處理 143

6.8.3 模型訓練與評估 146

6.9 回歸 148

6.9.1 線性回歸 148

6.9.2 CART決策樹回歸 150

6.9.3 BP神經網絡回歸 150

6.9.4 支持向量回歸 151

6.10 本章小結 152

習題 152

第7章集成技術 153

7.1 基本集成技術 153

7.1.1 裝袋 153

7.1.2 提升 155

7.1.3 堆疊 157

7.1.4 集成技術的定性分析 160

7.2 隨機森林 161

7.2.1 工作原理 161

7.2.2 隨機森林的Python實現 161

7.3 提升樹 162

7.3.1 原理 162

7.3.2 提升樹的Python實現 164

7.4 案例：電信客戶流失預測 165

7.4.1 探索數據 165

7.4.2 模型性能比較 167

7.5 類不平衡問題 168

7.5.1 類不平衡處理方法 169

7.5.2 不平衡數據處理的Python

實現 171

7.6 本章小結 174

習題 174

第8章聚類分析 175

8.1 聚類的基本原理 175

8.2 k-means算法 177

8.2.1 基本原理 177

8.2.2 進一步討論 179

8.2.3 基於Python的實現 180

8.2.4 k-means算法的優缺點 182

8.3 聚類算法的性能評價指標 183

8.3.1 內部度量指標 184

8.3.2 外部度量指標 184

8.3.3 基於Python的實現 187

8.4 DBSCAN算法 188

8.4.1 基本概念 188

8.4.2 DBSCAN聚類算法的原理 190

8.4.3 進一步討論 191

8.4.4 基於Python的實現 191

8.4.5 DBSCAN算法的優缺點 193

8.5 GMM聚類算法 195

8.5.1 基本原理 195

8.5.2 進一步討論 197

8.5.3 基於Python的實現 198

8.5.4 討論：優點和不足 200

8.6 本章小結 201

習題 201

第9章關聯規則分析 202

9.1 概述 202

9.1.1 基本概念 202

9.1.2 關聯規則挖掘算法 204

9.2 Apriori算法生成頻繁項集 205

9.2.1 先驗原理 205

9.2.2 產生頻繁項集 205

9.2.3 生成關聯規則 207

9.2.4 基於Python的Apriori算法

實現 208

9.2.5 進一步討論 210

9.3 FP-growth算法 210

9.3.1 FP-tree的構建 211

9.3.2 挖掘主FP-tree和條件

FP-tree 213

9.3.3 基於Python的FP-growth算法實現 213

9.3.4 進一步討論 215

9.4 Eclat算法 215

9.4.1 事務數據集的表示方式 215

9.4.2 Eclat算法生成頻繁項集 215

9.4.3 基於Python的Eclat算法

實現 216

9.4.4 進一步討論 219

9.5 案例：網上零售購物籃分析 219

9.5.1 數據集及案例背景 219

9.5.2 探索性分析和數據預處理 220

9.5.3 使用Apriori算法挖掘關聯

規則 221

9.6 本章小結 223

習題 223

第 10章時間序列挖掘 224

10.1 時間序列挖掘概述 224

10.1.1 時間序列挖掘的目的 224

10.1.2 時間序列挖掘的意義 224

10.1.3 時間序列挖掘的基本概念 225

10.2 時間序列預處理 226

10.2.1 常用序列特征統計量 226

10.2.2 平穩序列 227

10.2.3 平穩性檢驗 228

10.2.4 純隨機性檢驗 230

10.3 平穩非白噪聲序列建模 231

10.3.1 AR模型 231

10.3.2 MA模型 232

10.3.3 ARMA模型 232

10.3.4 建模過程 233

10.3.5 模型檢驗方法 233

10.4 非平穩序列建模 234

10.4.1 非平穩序列概述 234

10.4.2 差分運算 234

10.4.3 ARIMA模型 234

10.5 基於Python的ARIMA模型

實現 235

10.6 案例：基於ARIMA模型的

銷售額預測 236

10.7 本章小結 241

習題 241

第 11章異常檢測 242

11.1 基於統計的異常檢測方法 243

11.1.1 基於一元正態分布的異常

檢測方法 243

11.1.2 基於多元正態分布的異常

檢測方法 245

11.1.3 基於Python的實現 245

11.2 基於聚類的異常檢測方法 247

11.2.1 基本原理 247

11.2.2 基於Python的實現 248

11.3 孤立森林方法 249

11.3.1 基本原理 249

11.3.2 基於Python的實現 251

11.4 本章小結 254

習題 254

第 12章智能推薦 255

12.1 智能推薦概述 255

12.1.1 智能推薦定義 255

12.1.2 智能推薦場景 255

12.1.3 常用智能推薦技術 256

12.2 基於用戶的協同過濾技術 256

12.2.1 概述 256

12.2.2 常用的評價指標 257

12.2.3 基本過程描述 258

12.2.4 案例：使用基於用戶的協同

過濾方法進行電影推薦 261

12.3 基於物品的協同過濾技術 264

12.4 非負矩陣分解 265

12.4.1 基本原理 265

12.4.2 基於Python的實現 266

12.5 本章小結 269

習題 269

參考文獻 271

Python數據挖掘實戰（微課版）

王磊 邱江濤

商品描述

作者簡介

目錄大綱

類似商品

王磊邱江濤