Python大數據分析師的算法手冊
鄧立國 鄧淇文
商品描述
作者簡介
目錄大綱
目 錄
第1章 大數據分析概述 1
1.1 大數據分析背景 1
1.2 大數據分析的應用 2
1.3 大數據分析算法 3
1.4 大數據分析工具 5
1.5 本章小結 8
第2章 數據特征算法分析 9
2.1 數據分布性分析 9
2.1.1 數據分布特征集中趨勢的測定 9
2.1.2 數據分布特征離散程度的測定 14
2.1.3 數據分布特征偏態與峰度的測定 17
2.2 數據相關性分析 19
2.2.1 數據相關關系 19
2.2.2 數據相關分析的主要內容 22
2.2.3 相關關系的測定 22
2.3 數據聚類分析 24
2.3.1 聚類分析定義 24
2.3.2 聚類類型 25
2.3.3 聚類應用 26
2.4 數據主成分分析 27
2.4.1 主成分分析的原理及模型 27
2.4.2 數據主成分分析的幾何解釋 29
2.4.3 數據主成分的導出 30
2.4.4 證明主成分的方差是依次遞減的 31
2.4.5 數據主成分分析的計算 32
2.5 數據動態性分析 33
2.6 數據可視化 36
2.7 本章小結 38
第3章 大數據分析工具:NumPy 39
3.1 NumPy簡介 39
3.2 NumPy環境安裝配置 40
3.3 ndarray對象 41
3.4 數據類型 42
3.5 數組屬性 45
3.6 數組創建例程 47
3.7 基本切片和高級索引 52
3.8 廣播 55
3.9 數組與元素操作 56
3.9.1 數值疊代 56
3.9.2 數組變形 60
3.9.3 數組翻轉 62
3.9.4 修改維度 65
3.9.5 數組連接 69
3.9.6 數組分割 73
3.9.7 添加/刪除元素 75
3.10 位操作與字符串函數 80
3.11 數學運算函數 84
3.12 算術運算 86
3.13 統計函數 89
3.14 排序、搜索和計數函數 93
3.15 字節交換 96
3.16 副本和視圖 96
3.17 矩陣庫 99
3.18 線性代數模塊 101
3.19 Matplotlib庫 104
3.20 Matplotlib繪制直方圖 106
3.21 IO文件操作 107
3.22 NumPy實例:GPS定位 108
3.23 本章小結 111
第4章 大數據分析工具:SciPy 112
4.1 SciPy簡介 112
4.2 文件輸入和輸出:SciPy.io 113
4.3 特殊函數:SciPy.special 114
4.4 線性代數操作:SciPy.linalg 115
4.5 快速傅裏葉變換:Scipy.fftpack 115
4.6 優化器:SciPy.optimize 116
4.7 統計工具:SciPy.stats 117
4.8 SciPy實例 118
4.8.1 最小二乘擬合 118
4.8.2 函數最小值 119
4.9 本章小結 121
第5章 大數據分析工具:Matplotlib 122
5.1 初級繪制 122
5.2 圖像、子區、子圖、刻度 128
5.3 其他種類的繪圖 130
5.4 本章小結 136
第6章 大數據分析工具:Pandas 137
6.1 Pandas系列 137
6.2 Pandas數據幀 140
6.3 Pandas面板 144
6.4 Pandas快速入門 147
6.5 本章小結 158
第7章 大數據分析工具:Statsmodels與Gensim 159
7.1 Statsmodels 159
7.1.1 Statsmodels統計數據庫 159
7.1.2 Statsmodels典型的擬合模型概述 161
7.1.3 Statsmodels舉例 162
7.2 Gensim 164
7.2.1 基本概念 164
7.2.2 訓練語料的預處理 164
7.2.3 主題向量的變換 166
7.2.4 文檔相似度的計算 167
7.3 本章小結 167
第8章 大數據分析算法 168
8.1 分類算法 168
8.1.1 決策樹 169
8.1.2 隨機森林 174
8.1.3 支持向量機 177
8.1.4 樸素貝葉斯 180
8.1.5 K最近鄰 182
8.1.6 邏輯回歸 185
8.2 聚類算法 188
8.2.1 K均值 188
8.2.2 層次聚類 192
8.2.3 DBSCAN 194
8.2.4 高斯混合模型 195
8.3 回歸算法 198
8.3.1 線性回歸 198
8.3.2 嶺回歸 201
8.3.3 Lasso回歸 203
8.3.4 多項式回歸 204
8.4 關聯規則學習 206
8.4.1 Apriori算法 206
8.4.2 FP-Growth算法 210
8.5 降維算法 213
8.5.1 線性判別分析 214
8.5.2 t-分布鄰域嵌入 216
8.5.3 自編碼器實現 219
8.5.4 局部線性嵌入 222
8.5.5 多維縮放 224
8.5.6 獨立成分分析 225
8.5.7 因子分析 228
8.5.8 奇異值分解 229
8.6 推薦算法 231
8.6.1 基於內容的推薦 231
8.6.2 協同過濾 233
8.6.3 矩陣分解 235
8.6.4 基於深度學習的推薦算法 237
8.6.5 混合推薦算法 240
8.6.6 基於圖的推薦算法 242
8.6.7 基於上下文感知的推薦 245
8.6.8 基於強化學習的推薦算法 247
8.6.9 評估推薦算法的指標 250
8.6.10 冷啟動問題的解決方案 252
8.7 時間序列分析 253
8.7.1 自回歸移動平均數 255
8.7.2 指數平滑 257
8.7.3 Prophet 261
8.8 異常檢測 263
8.8.1 Z-Score 264
8.8.2 LOF 266
8.8.3 Isolation Forest 268
8.8.4 One-Class SVM 270
8.8.5 生成對抗網絡 272
8.9 自然語言處理 276
8.9.1 詞袋模型 277
8.9.2 TF-IDF 278
8.9.3 主題模型LDA 280
8.9.4 詞嵌入Word2Vec 282
8.9.5 N-gram 284
8.10 深度學習 288
8.10.1 卷積神經網絡 289
8.10.2 循環神經網絡 292
8.10.3 長短期記憶網絡 296
8.11 圖算法 298
8.11.1 PageRank 299
8.11.2 社區發現 302
8.11.3 最短路徑算法(Dijkstra算法) 305
8.12 優化算法 307
8.12.1 隨機梯度下降 308
8.12.2 遺傳算法 310
8.12.3 粒子群優化 313
8.12.4 模擬退火 316
8.13 流數據處理 318
8.13.1 滑動窗口 319
8.13.2 聚合計算 322
8.13.3 過濾 324
8.13.4 模式匹配 331
8.14 本章小結 337
第9章 經典案例分析 338
9.1 文本分析與情感分析 338
9.2 金融大數據分析 352
9.3 社交網絡分析 360
9.4 地理數據分析 372
9.5 城市交通數據分析 383
9.6 本章小結 392
參考文獻 394







