Python大數據分析師的算法手冊

鄧立國 鄧淇文

  • 出版商: 清華大學
  • 出版日期: 2026-03-01
  • 售價: $654
  • 語言: 簡體中文
  • ISBN: 7302708258
  • ISBN-13: 9787302708254
  • 相關分類: Python
  • 下單後立即進貨 (約4週~6週)

  • Python大數據分析師的算法手冊-preview-1
  • Python大數據分析師的算法手冊-preview-2
  • Python大數據分析師的算法手冊-preview-3
  • Python大數據分析師的算法手冊-preview-4
  • Python大數據分析師的算法手冊-preview-5
  • Python大數據分析師的算法手冊-preview-6
  • Python大數據分析師的算法手冊-preview-7
Python大數據分析師的算法手冊-preview-1

商品描述

"《Python大數據分析師的算法手冊》系統闡述大數據分析方法中的關鍵算法與實踐,重點聚焦數據特征分析及第三方開源庫的場景化應用。通過工具整合與實例講解,為讀者提供從理論到實踐的完整學習路徑。本書配套示例源碼、PPT課件。 《Python大數據分析師的算法手冊》共9章。第1章概述大數據分析;第2章講解數據特征算法分析;第3~7章講解主流開源的分析工具的用法,包括NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等;第8章講解分類、聚類、回歸、關聯規則學習、推薦算法、時間序列分析、異常檢測、自然語言處理、深度學習、圖算法、優化算法、流數據處理等算法及其示例;第9章給出5個典型案例,包括文本分析與情感分析、金融大數據分析、社交網絡分析、地理數據分析、城市交通數據分析。本書所有示例均在Anaconda3開發環境中調試通過,實驗數據多源自GitHub公開資源,並附有完整源代碼,便於讀者復現與拓展。 《Python大數據分析師的算法手冊》內容兼顧技術深度與實用性,適合大數據分析算法初學者、大數據分析人員、大數據研究人員閱讀,也可以作為計算機科學與工程、大數據分析、人工智能、統計學和社會科學等專業的大學生或研究生的專業參考書。"

作者簡介

鄧立國,東北大學計算機應用博士,廣東工業大學教師。主要研究方向為人工智能、計算機與機器視覺、大數據處理、分布式計算等。以第一作者發表學術論文40余篇,主編科研著作9部,主持科研課題12項,多次獲得省級科研優秀獎。

目錄大綱

目    錄

第1章  大數據分析概述 1

1.1  大數據分析背景 1

1.2  大數據分析的應用 2

1.3  大數據分析算法 3

1.4  大數據分析工具 5

1.5  本章小結 8

第2章  數據特征算法分析 9

2.1  數據分布性分析 9

2.1.1  數據分布特征集中趨勢的測定 9

2.1.2  數據分布特征離散程度的測定 14

2.1.3  數據分布特征偏態與峰度的測定 17

2.2  數據相關性分析 19

2.2.1  數據相關關系 19

2.2.2  數據相關分析的主要內容 22

2.2.3  相關關系的測定 22

2.3  數據聚類分析 24

2.3.1  聚類分析定義 24

2.3.2  聚類類型 25

2.3.3  聚類應用 26

2.4  數據主成分分析 27

2.4.1  主成分分析的原理及模型 27

2.4.2  數據主成分分析的幾何解釋 29

2.4.3  數據主成分的導出 30

2.4.4  證明主成分的方差是依次遞減的 31

2.4.5  數據主成分分析的計算 32

2.5  數據動態性分析 33

2.6  數據可視化 36

2.7  本章小結 38

第3章  大數據分析工具:NumPy 39

3.1  NumPy簡介 39

3.2  NumPy環境安裝配置 40

3.3  ndarray對象 41

3.4  數據類型 42

3.5  數組屬性 45

3.6  數組創建例程 47

3.7  基本切片和高級索引 52

3.8  廣播 55

3.9  數組與元素操作 56

3.9.1  數值疊代 56

3.9.2  數組變形 60

3.9.3  數組翻轉 62

3.9.4  修改維度 65

3.9.5  數組連接 69

3.9.6  數組分割 73

3.9.7  添加/刪除元素 75

3.10  位操作與字符串函數 80

3.11  數學運算函數 84

3.12  算術運算 86

3.13  統計函數 89

3.14  排序、搜索和計數函數 93

3.15  字節交換 96

3.16  副本和視圖 96

3.17  矩陣庫 99

3.18  線性代數模塊 101

3.19  Matplotlib庫 104

3.20  Matplotlib繪制直方圖 106

3.21  IO文件操作 107

3.22  NumPy實例:GPS定位 108

3.23  本章小結 111

第4章  大數據分析工具:SciPy 112

4.1  SciPy簡介 112

4.2  文件輸入和輸出:SciPy.io 113

4.3  特殊函數:SciPy.special 114

4.4  線性代數操作:SciPy.linalg 115

4.5  快速傅裏葉變換:Scipy.fftpack 115

4.6  優化器:SciPy.optimize 116

4.7  統計工具:SciPy.stats 117

4.8  SciPy實例 118

4.8.1  最小二乘擬合 118

4.8.2  函數最小值 119

4.9  本章小結 121

第5章  大數據分析工具:Matplotlib 122

5.1  初級繪制 122

5.2  圖像、子區、子圖、刻度 128

5.3  其他種類的繪圖 130

5.4  本章小結 136

第6章  大數據分析工具:Pandas 137

6.1  Pandas系列 137

6.2  Pandas數據幀 140

6.3  Pandas面板 144

6.4  Pandas快速入門 147

6.5  本章小結 158

第7章  大數據分析工具:Statsmodels與Gensim 159

7.1  Statsmodels 159

7.1.1  Statsmodels統計數據庫 159

7.1.2  Statsmodels典型的擬合模型概述 161

7.1.3  Statsmodels舉例 162

7.2  Gensim 164

7.2.1  基本概念 164

7.2.2  訓練語料的預處理 164

7.2.3  主題向量的變換 166

7.2.4  文檔相似度的計算 167

7.3  本章小結 167

第8章  大數據分析算法 168

8.1  分類算法 168

8.1.1  決策樹 169

8.1.2  隨機森林 174

8.1.3  支持向量機 177

8.1.4  樸素貝葉斯 180

8.1.5  K最近鄰 182

8.1.6  邏輯回歸 185

8.2  聚類算法 188

8.2.1  K均值 188

8.2.2  層次聚類 192

8.2.3  DBSCAN 194

8.2.4  高斯混合模型 195

8.3  回歸算法 198

8.3.1  線性回歸 198

8.3.2  嶺回歸 201

8.3.3  Lasso回歸 203

8.3.4  多項式回歸 204

8.4  關聯規則學習 206

8.4.1  Apriori算法 206

8.4.2  FP-Growth算法 210

8.5  降維算法 213

8.5.1  線性判別分析 214

8.5.2  t-分布鄰域嵌入 216

8.5.3  自編碼器實現 219

8.5.4  局部線性嵌入 222

8.5.5  多維縮放 224

8.5.6  獨立成分分析 225

8.5.7  因子分析 228

8.5.8  奇異值分解 229

8.6  推薦算法 231

8.6.1  基於內容的推薦 231

8.6.2  協同過濾 233

8.6.3  矩陣分解 235

8.6.4  基於深度學習的推薦算法 237

8.6.5  混合推薦算法 240

8.6.6  基於圖的推薦算法 242

8.6.7  基於上下文感知的推薦 245

8.6.8  基於強化學習的推薦算法 247

8.6.9  評估推薦算法的指標 250

8.6.10  冷啟動問題的解決方案 252

8.7  時間序列分析 253

8.7.1  自回歸移動平均數 255

8.7.2  指數平滑 257

8.7.3  Prophet 261

8.8  異常檢測 263

8.8.1  Z-Score 264

8.8.2  LOF 266

8.8.3  Isolation Forest 268

8.8.4  One-Class SVM 270

8.8.5  生成對抗網絡 272

8.9  自然語言處理 276

8.9.1  詞袋模型 277

8.9.2  TF-IDF 278

8.9.3  主題模型LDA 280

8.9.4  詞嵌入Word2Vec 282

8.9.5  N-gram 284

8.10  深度學習 288

8.10.1  卷積神經網絡 289

8.10.2  循環神經網絡 292

8.10.3  長短期記憶網絡 296

8.11  圖算法 298

8.11.1  PageRank 299

8.11.2  社區發現 302

8.11.3  最短路徑算法(Dijkstra算法) 305

8.12  優化算法 307

8.12.1  隨機梯度下降 308

8.12.2  遺傳算法 310

8.12.3  粒子群優化 313

8.12.4  模擬退火 316

8.13  流數據處理 318

8.13.1  滑動窗口 319

8.13.2  聚合計算 322

8.13.3  過濾 324

8.13.4  模式匹配 331

8.14  本章小結 337

第9章  經典案例分析 338

9.1  文本分析與情感分析 338

9.2  金融大數據分析 352

9.3  社交網絡分析 360

9.4  地理數據分析 372

9.5  城市交通數據分析 383

9.6  本章小結 392

參考文獻 394