Python數據分析與實戰(微課版)

趙男男,鄒平輝

  • 出版商: 人民郵電
  • 出版日期: 2025-12-01
  • 售價: $359
  • 語言: 簡體中文
  • 頁數: 256
  • ISBN: 7115656215
  • ISBN-13: 9787115656216
  • 相關分類: Python
  • 下單後立即進貨 (約4週~6週)

  • Python數據分析與實戰(微課版)-preview-1
Python數據分析與實戰(微課版)-preview-1

相關主題

商品描述

本書全面介紹數據分析的流程和Python數據分析庫的應用,詳細講解利用Python解決企業實際問題的方法。全書共10章,第1章介紹數據分析的概念等相關知識;第2~6章介紹Python數據分析的常用庫及其應用,涵蓋NumPy數組計算基礎,pandas統計分析基礎,使用pandas進行數據預處理,Matplotlib、seaborn、pyecharts數據可視化基礎,以及使用scikit-learn構建模型,較為全面地闡述Python數據分析方法;第7~9章結合前面章節介紹的數據分析技術,進行企業綜合案例數據分析;第10章基於去編程化的TipDM大數據挖掘建模平臺進行客戶流失預測。除了第1章,其余各章都包含實訓,有利於讀者通過練習和操作實踐鞏固所學內容。

本書可以作為高校大數據技術相關專業的教材和大數據技術愛好者的自學參考書。

作者簡介

趙男男,廣東海洋大學副教授,碩士研究生導師,省優秀教師,九三學社社員,市政協委員,中國人工智能學會專委委員,廣東海洋大學計算機科學與工程學院副院長,主要從事計算機應用方向教學與科研工作。在國內外權威刊物累計發表論文50余篇,獲發明專利3項,軟件著作權10項,主持省部級課題10余項,參與課題若幹項。

曾在國內外重要學術刊物上發表學術論文10余篇,主導編寫圖書專著60余部,其中獲普通高等教育“十一五”規劃教材一部,“十三五”職業教育國家規劃教材一部;參與標準建設4項,主持國家級課題1項、省部級課題4項。獲得SAS、SPSS數據挖掘認證及Hadoop開發工程師證書,具有信訪、電力、電信、銀行、制造企業、電子商務和電子政務的項目經驗和行業背景,並榮獲中國產學研合作促進獎、中國南方電網公司發明專利一等獎、廣東省農業技術推廣二等獎、廣州市荔灣區科學技術進步獎。

目錄大綱

第 1章 Python數據分析概述 1

1.1 認識數據分析 2

1.1.1 數據分析的概念 2

1.1.2 數據分析的流程 3

1.1.3 數據分析的應用場景 5

1.2 Python數據分析 6

1.2.1 數據分析常用工具 7

1.2.2 Python數據分析的優勢 7

1.2.3 Python數據分析常用庫 8

1.3 安裝Python的Anaconda發行版 10

1.3.1 Python的Anaconda發行版 10

1.3.2 在Windows系統中安裝Anaconda發行版 10

1.4 Jupyter Notebook的常用功能 13

1.4.1 Jupyter Notebook的基本功能 13

1.4.2 Jupyter Notebook的高級功能 15

小結 18

課後習題 18

第 2章 NumPy數組計算基礎 20

2.1 NumPy數組對象ndarray 21

2.1.1 創建數組對象 21

2.1.2 生成隨機數 27

2.1.3 通過索引訪問數組 29

2.1.4 變換數組的形狀 31

2.2 NumPy矩陣與通用函數 34

2.2.1 創建NumPy矩陣 34

2.2.2 ufunc函數 37

2.3 利用NumPy進行統計分析 40

2.3.1 讀/寫文件 40

2.3.2 使用函數進行簡單的統計分析 43

小結 47

實訓 48

實訓1 使用數組比較運算對超市牛奶價格進行對比 48

實訓2 創建6×6的簡單數獨遊戲矩陣 48

課後習題 48

第3章 pandas統計分析基礎 50

3.1 讀/寫不同數據源的數據 51

3.1.1 認識pandas 51

3.1.2 讀/寫文本文件 52

3.1.3 讀/寫Excel文件 55

3.1.4 讀/寫數據庫 57

3.2 DataFrame的常用操作 60

3.2.1 查看DataFrame的常用屬性 60

3.2.2 查、改、增、刪DataFrame數據 61

3.2.3 描述分析DataFrame數據 67

3.3 轉換與處理時間序列數據 70

3.3.1 轉換時間字符串為標準時間 70

3.3.2 提取時間序列數據 72

3.3.3 時間數據的算術運算 73

3.4 使用分組聚合進行組內計算 74

3.4.1 使用groupby()方法拆分數據 75

3.4.2 使用agg()方法聚合數據 76

3.4.3 使用apply()方法聚合數據 79

3.4.4 使用transform()方法聚合數據 80

小結 81

實訓 81

實訓1 讀取並查看某地區房屋銷售數據的基本信息 81

實訓2 提取房屋售出時間信息並描述房屋價格信息 81

實訓3 使用分組聚合方法分析房屋銷售情況 82

課後習題 82

第4章 使用pandas進行數據預處理 85

4.1 數據合並 86

4.1.1 堆疊合並 86

4.1.2 主鍵合並 89

4.1.3 重疊合並 90

4.2 數據清洗 92

4.2.1 檢測與處理重復值 92

4.2.2 檢測與處理缺失值 95

4.2.3 檢測與處理異常值 99

4.3 數據標準化 100

4.3.1 離差標準化 101

4.3.2 標準差標準化 101

4.3.3 小數定標標準化 102

4.4 數據變換 103

4.4.1 啞變量處理 103

4.4.2 離散化處理 104

小結 107

實訓 107

實訓1 合並年齡、平均血糖數據和中風患者信息數據 107

實訓2 刪除年齡異常的數據 108

實訓3 離散化年齡特征 109

課後習題 109

第5章 Matplotlib、seaborn、pyecharts數據可視化基礎 111

5.1 Matplotlib基礎繪圖 112

5.1.1 pyplot繪圖基礎語法與常用參數 112

5.1.2 使用Matplotlib繪制進階圖形 118

5.2 seaborn基礎繪圖 128

5.2.1 seaborn繪圖基礎 128

5.2.2 使用seaborn繪制基礎圖形 144

5.3 pyecharts基礎繪圖 145

5.3.1 pyecharts繪圖基礎 146

5.3.2 使用pyecharts繪制交互式圖形 150

小結 155

實訓 155

實訓1 分析學生成績特征的分布與分散情況 155

實訓2 分析學生成績與各個特征之間的關系 156

實訓3 分析各空氣質量指標之間的相關關系 156

實訓4 繪制交互式基礎圖形 157

課後習題 158

第6章 使用scikit-learn構建模型 160

6.1 使用sklearn轉換器處理數據 161

6.1.1 加載datasets模塊中的數據集 161

6.1.2 將數據集劃分為訓練集和測試集 164

6.1.3 使用sklearn轉換器進行數據預處理 165

6.2 構建並評價聚類模型 167

6.2.1 使用sklearn估計器構建聚類模型 168

6.2.2 評價聚類模型 171

6.3 構建並評價分類模型 173

6.3.1 使用sklearn估計器構建分類模型 173

6.3.2 評價分類模型 175

6.4 構建並評價回歸模型 176

6.4.1 使用sklearn估計器構建線性回歸模型 177

6.4.2 評價回歸模型 179

小結 180

實訓 181

實訓1 使用sklearn處理競標行為數據集 181

實訓2 構建基於競標行為數據集的K-Means聚類模型 182

實訓3 構建基於競標行為數據集的支持向量機分類模型 182

實訓4 構建基於競標行為數據集的回歸模型 182

課後習題 183

第7章 競賽網站用戶行為分析 185

7.1 競賽網站用戶行為分析的背景和方法 186

7.1.1 分析競賽網站背景 186

7.1.2 認識用戶行為分析 187

7.1.3 競賽網站用戶行為分析的步驟與流程 187

7.2 預處理競賽網站用戶訪問數據 188

7.2.1 用戶識別 188

7.2.2 數據清洗 189

7.2.3 網頁分類 192

7.2.4 構造特征 194

7.3 對競賽網站用戶進行分群 194

7.3.1 K-Means聚類算法 195

7.3.2 使用K-Means聚類算法進行用戶分群 196

7.3.3 模型應用 198

小結 198

實訓 198

實訓1 處理某App用戶信息數據集 198

實訓2 構建與用戶使用信息相關的特征 199

實訓3 構建K-Means聚類模型 200

課後習題 200

第8章 企業所得稅預測分析 201

8.1 企業所得稅預測的背景與方法 202

8.1.1 分析企業所得稅預測背景 202

8.1.2 企業所得稅預測的方法 204

8.1.3 企業所得稅預測的步驟與流程 204

8.2 分析企業所得稅數據特征的相關性 205

8.2.1 相關性分析 205

8.2.2 計算Pearson相關系數 205

8.3 使用Lasso回歸方法選取企業所得稅預測的關鍵特征 207

8.3.1 Lasso回歸方法 207

8.3.2 選取關鍵特征 208

8.4 使用灰色預測算法和SVR算法構建企業所得稅預測模型 209

8.4.1 灰色預測算法 209

8.4.2 SVR算法 210

8.4.3 預測企業所得稅 211

小結 214

實訓 215

實訓1 處理二手汽車交易數據集 215

實訓2 構建二手汽車價格預測關鍵特征 216

實訓3 構建線性回歸模型 216

課後習題 217

第9章 餐飲企業客戶流失預測 218

9.1 餐飲企業客戶分析需求 219

9.1.1 分析餐飲企業客戶流失預測背景 219

9.1.2 認識餐飲企業客戶流失預測 221

9.1.3 餐飲企業客戶流失預測的步驟與流程 221

9.2 預處理餐飲企業數據 221

9.2.1 數據探索 222

9.2.2 查看重復值 224

9.2.3 處理異常值 224

9.2.4 處理缺失值 225

9.2.5 構建客戶流失特征 226

9.3 使用決策樹算法和支持向量機算法進行餐飲企業客戶流失預測 228

9.3.1 決策樹算法 228

9.3.2 支持向量機算法 229

9.3.3 預測餐飲企業客戶流失 231

小結 233

實訓 233

實訓1 預處理尺碼信息數據 233

實訓2 構建支持向量機分類模型預測客戶服裝尺寸 234

課後習題 234

第 10章 基於TipDM大數據挖掘建模平臺進行客戶流失預測 236

10.1 平臺簡介 237

10.1.1 共享庫 238

10.1.2 數據連接 238

10.1.3 數據集 239

10.1.4 我的工程 239

10.1.5 個人組件 242

10.2 使用平臺進行客戶流失預測 242

10.2.1 使用平臺配置客戶流失預測案例的步驟和流程 242

10.2.2 數據源配置 244

10.2.3 數據預處理 245

10.2.4 構建模型 251

小結 256

實訓 256

實訓 預測客戶服裝尺寸 256

課後習題 256