DeepSeek高效數據分析:從數據清洗到行業案例
王國平
- 出版商: 清華大學
- 出版日期: 2025-11-01
- 售價: $534
- 語言: 簡體中文
- ISBN: 7302703787
- ISBN-13: 9787302703785
-
相關分類:
Data-visualization
尚未上市,歡迎預購
商品描述
作者簡介
目錄大綱
目 錄
第1章 DeepSeek概述 1
1.1 DeepSeek大模型:重塑數據分析範式 1
1.2 核心技術體系:構建智能分析閉環 1
1.3 本地部署DeepSeek 3
1.3.1 安裝Ollama 3
1.3.2 安裝DeepSeek 4
1.3.3 安裝Chatbox 4
1.3.4 API調用實戰 6
1.4 使用DeepSeek在線開發環境進行工作 12
1.4.1 AI代碼編輯器—Cursor 12
1.4.2 如何用DeepSeek開始數據分析 16
1.5 本章小結 19
第2章 利用DeepSeek進行數據加載 20
2.1 讀取本地離線數據 20
2.1.1 讀取CSV文本數據 20
2.1.2 讀取Excel文件數據 23
2.1.3 讀取本地圖片數據 26
2.1.4 讀取PDF文件數據 28
2.1.5 讀取XML格式數據 32
2.2 讀取數據庫數據 34
2.2.1 讀取Oracle數據庫數據 35
2.2.2 讀取MySQL數據庫數據 38
2.2.3 讀取SQL Server數據庫數據 41
2.2.4 讀取Kingbase數據庫數據 44
2.2.5 讀取OceanBase數據庫數據 47
2.3 讀取Web在線數據 49
2.3.1 如何獲取並解析Web數據 49
2.3.2 讀取UCI紅酒在線數據 51
2.4 本章小結 54
第3章 利用DeepSeek進行數據清洗 55
3.1 重復值的檢測與處理 55
3.1.1 重復值的檢測方法 55
3.1.2 重復值的處理 60
3.2 缺失值的檢測與處理 63
3.2.1 缺失值的檢測 63
3.2.2 缺失值的處理 67
3.3 異常值的檢測與處理 78
3.3.1 異常值的檢測 78
3.3.2 異常值的處理 83
3.4 本章小結 94
第4章 利用DeepSeek進行數據預處理 95
4.1 數據集成 95
4.1.1 數據集成概述 95
4.1.2 數據橫向合並 97
4.1.3 數據縱向合並 100
4.2 數據轉換 104
4.2.1 數據轉換概述 104
4.2.2 數據標準化處理方法 105
4.2.3 數據二值化處理方法 108
4.2.4 數據離散化處理方法 111
4.3 數據集劃分 116
4.3.1 數據集劃分概述 116
4.3.2 訓練集和測試集法 117
4.3.3 訓練集/驗證集/測試集法 120
4.3.4 分層抽樣法 123
4.4 本章小結 126
第5章 利用DeepSeek進行數據探索 128
5.1 描述性分析 128
5.1.1 描述性分析概述 128
5.1.2 案例:國內生產總值描述性分析 130
5.2 頻數分析 133
5.2.1 頻數分析概述 133
5.2.2 案例:居民消費水平頻數分析 134
5.3 探索分析 137
5.3.1 探索分析概述 138
5.3.2 案例:商品評論得分探索分析 138
5.4 交叉表分析 141
5.4.1 交叉表分析概述 141
5.4.2 案例:商品顏色交叉表分析 142
5.5 相關分析 144
5.5.1 相關關系概述 144
5.5.2 案例:鐵路和公路貨運量分析 146
5.6 偏相關分析 149
5.6.1 偏相關分析概述 150
5.6.2 案例:鐵路和公路貨運量分析 150
5.7 本章小結 153
第6章 利用DeepSeek進行回歸分析 154
6.1 線性回歸 154
6.1.1 線性回歸概述 154
6.1.2 案例:貸款申請人負債率分析 157
6.2 曲線回歸 162
6.2.1 曲線回歸概述 162
6.2.2 案例:信用額度使用率分析 163
6.3 邏輯回歸 168
6.3.1 邏輯回歸概述 168
6.3.2 案例:貸款客戶是否違約分析 168
6.4 本章小結 172
第7章 利用DeepSeek進行聚類分析 173
7.1 聚類分析簡介 173
7.2 K-Means聚類 174
7.2.1 K-Means算法 174
7.2.2 案例:水質監測聚類分析 175
7.3 手肘法判斷聚類數 180
7.3.1 手肘法概述 180
7.3.2 案例:手肘法判斷聚類數 181
7.4 輪廓系數法判斷聚類數 184
7.4.1 輪廓系數法 185
7.4.2 案例:輪廓系數法判斷聚類數 185
7.5 本章小結 189
第8章 利用DeepSeek進行時間序列分析 190
8.1 時間序列分析概述 190
8.1.1 時序數據簡介 190
8.1.2 時間序列算法 192
8.2 指數平滑法及其案例 193
8.2.1 指數平滑法 193
8.2.2 案例:制造業采購經理指數預測 195
8.3 ARIMA模型及其案例 199
8.3.1 ARIMA模型 199
8.3.2 案例:居民消費價格指數預測 201
8.4 本章小結 205
第9章 利用DeepSeek進行模型評估 206
9.1 模型評估方法 206
9.1.1 混淆矩陣及案例 206
9.1.2 ROC曲線及案例 211
9.1.3 R平方及案例 215
9.1.4 殘差及案例 219
9.1.5 交叉驗證及案例 222
9.1.6 學習曲線及案例 226
9.2 欠擬合及其案例 231
9.2.1 欠擬合及其影響 231
9.2.2 案例:波士頓房價回歸分析 231
9.3 過擬合及其案例 235
9.3.1 過擬合及其影響 236
9.3.2 案例:基於隨機森林的鳶尾花分類 236
9.4 本章小結 240
第10章 利用DeepSeek撰寫分析報告 241
10.1 數據分析報告的作用 241
10.2 DeepSeep撰寫數據分析報告的註意事項 242
10.3 案例:電商數據分析報告 243
10.3.1 分析背景 243
10.3.2 理解數據 244
10.3.3 數據清洗 245
10.3.4 數據分析 246
10.3.5 案例總結 264
10.4 本章小結 264
第11章 案例:DeepSeek金融量化數據分析 265
11.1 案例概述 265
11.1.1 K線圖技術理論 265
11.1.2 案例數據采集 266
11.2 數據基礎分析 269
11.2.1 查看數據集信息 269
11.2.2 數據描述性分析 272
11.2.3 數據可視化分析 275
11.3 股票數據分析 283
11.3.1 指標相關性分析 283
11.3.2 指標趨勢性分析 286
11.3.3 股票交易時機分析 289
11.4 本章小結 292
第12章 案例:DeepSeek電商平臺數據分析 293
12.1 案例背景 293
12.2 商品銷售數據分析 293
12.2.1 每日商品訂單量日歷圖 294
12.2.2 每月商品銷售額折線圖 297
12.2.3 不同區域銷售業績雷達圖 300
12.3 商品評論文本分析 303
12.3.1 中文Jieba分詞概述 303
12.3.2 商品評論關鍵詞分析 304
12.3.3 商品評論關鍵詞詞雲 307
12.4 本章小結 310