Python數據分析與應用(第2版)(微課版)

曾文權,張良均

  • 出版商: 人民郵電
  • 出版日期: 2022-12-01
  • 定價: $359
  • 售價: 8.5$305
  • 語言: 簡體中文
  • 頁數: 276
  • ISBN: 7115575584
  • ISBN-13: 9787115575586
  • 相關分類: Data Science
  • 下單後立即進貨 (約4週~6週)

  • Python數據分析與應用(第2版)(微課版)-preview-1
  • Python數據分析與應用(第2版)(微課版)-preview-2
Python數據分析與應用(第2版)(微課版)-preview-1

商品描述

本書以任務為導向,全面地介紹數據分析的流程和Python數據分析庫的應用,詳細講解利用Python解決企業實際問題的方法。全書共10章,第1章介紹數據分析的概念等相關知識;第2~6章介紹Python數據分析的常用庫及其應用,涵蓋NumPy數組計算,pandas統計分析,使用pandas進行數據預處理,Matplotlib、seaborn與pyecharts數據可視化,以及使用scikit-learn構建模型,較為全面地闡述Python數據分析方法;第7~9章結合之前所學的數據分析技術,進行企業綜合案例數據分析;第10章基於去編程化的TipDM大數據挖掘建模平臺實現客戶流失預測。除第1章外,本書各章都包含實訓與課後習題,通過練習和操作實踐,幫助讀者鞏固所學的內容。

本書可以用於“1+X”證書制度試點工作中的大數據應用開發(Python)職業技能等級(中級)證書相關知識的教學和培訓,也可以作為高校大數據技術相關專業的教材和大數據技術愛好者的自學用書。

作者簡介

曾文权,广东科学技术职业学院计算机学院院长、教授,教育部计算机职业教育教学指导委员会委员、中国计算机学会职业教育发展委员会副主席、国家课程思政教学名师、国家软件技术高水平专业群建设负责人、国家教学创新团队带头人、广东省千百十人才工程省级培养对象、广东省移动应用开发专业领军人才;获国家教学成果奖1项、省级教学成果奖3项;主持国家和省级教科研项目20余项、主编出版专著1部、教材8部,发表论文30余篇。

张良均

资深大数据专家,广东泰迪智能科技股份有限公司董事长,国家科技部入库技术专家,教育部全国专业学位水平评估专家,工信部教育与考试中心入库专家,中国工业与应用数学学会理事,广东省工业与应用数学学会副理事长,广东省高等职业教育教学指导委员会委员,华南师范大学、中南财经政法大学等40余所高校校外硕导或兼职教授,泰迪杯全国数据挖掘挑战赛发起人。

曾在国内外重要学术刊物上发表学术论文10余篇,主导编写图书专著60余部,其中获普通高等教育“十一五”规划教材一部,“十三五”职业教育国家规划教材一部;参与标准建设4项,主持国家级课题1项、省部级课题4项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有信访、电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景,并荣获中国产学研合作促进奖

目錄大綱

第 1章 Python數據分析概述 1

任務1.1 認識數據分析 2

1.1.1 掌握數據分析的概念 2

1.1.2 掌握數據分析的流程 3

1.1.3 瞭解數據分析的應用場景 4

任務1.2 熟悉Python數據分析的工具 6

1.2.1 瞭解數據分析常用工具 6

1.2.2 瞭解Python數據分析的優勢 7

1.2.3 瞭解Python數據分析常用庫 7

任務1.3 安裝Python的Anaconda發行版 9

1.3.1 瞭解Python的Anaconda發行版 10

1.3.2 在Windows系統中安裝Anaconda發行版 10

1.3.3 在Linux系統中安裝Anaconda發行版 13

任務1.4 掌握Jupyter Notebook常用功能 15

1.4.1 掌握Jupyter Notebook的基本功能 15

1.4.2 掌握Jupyter Notebook的高級功能 17

小結 20

課後習題 21

第 2章 NumPy數組計算基礎 23

任務2.1 掌握NumPy數組對象ndarray 24

2.1.1 創建數組對象 24

2.1.2 生成隨機數 30

2.1.3 通過索引訪問數組 31

2.1.4 變換數組的形狀 33

任務2.2 掌握NumPy矩陣與通用函數 37

2.2.1 創建NumPy矩陣 37

2.2.2 掌握ufunc函數 39

任務2.3 利用NumPy進行統計分析 43

2.3.1 讀/寫文件 43

2.3.2 使用函數進行簡單的統計分析 45

小結 50

實訓 50

實訓1 使用數組比較運算對超市牛奶價格進行對比 50

實訓2 創建6×6的簡單數獨游戲矩陣 51

課後習題 51

第3章 pandas統計分析基礎 53

任務3.1 讀/寫不同數據源的數據 54

3.1.1 認識pandas庫 54

3.1.2 讀/寫文本文件 54

3.1.3 讀/寫Excel文件 58

3.1.4 讀/寫數據庫 60

任務3.2 掌握DataFrame的常用操作 62

3.2.1 查看DataFrame的常用屬性 63

3.2.2 查、改、增、刪DataFrame數據 64

3.2.3 描述分析DataFrame數據 70

任務3.3 轉換與處理時間序列數據 73

3.3.1 轉換時間字符串為標準時間 73

3.3.2 提取時間序列數據信息 75

3.3.3 加減時間數據 76

任務3.4 使用分組聚合進行組內計算 78

3.4.1 使用groupby()方法拆分數據 78

3.4.2 使用agg()方法聚合數據 80

3.4.3 使用apply()方法聚合數據 82

3.4.4 使用transform()方法聚合數據 83

任務3.5 創建透視表與交叉表 84

3.5.1 使用pivot_table函數創建透視表 85

3.5.2 使用crosstab函數創建交叉表 87

小結 88

實訓 89

實訓1 讀取並查看某地區房屋銷售數據的基本信息 89

實訓2 提取房屋售出時間信息並描述房房價格信息 89

實訓3 使用分組聚合方法分析房屋銷售情況 90

實訓4 分析房屋地區、配套房間數和房房價格的關系 90

課後習題 91

第4章 使用pandas進行數據預處理 93

任務4.1 合並數據 93

4.1.1 堆疊合並數據 94

4.1.2 主鍵合並數據 97

4.1.3 重疊合並數據 99

任務4.2 清洗數據 100

4.2.1 檢測與處理重復值 100

4.2.2 檢測與處理缺失值 104

4.2.3 檢測與處理異常值 108

任務4.3 標準化數據 110

4.3.1 離差標準化數據 110

4.3.2 標準差標準化數據 111

4.3.3 小數定標標準化數據 111

任務4.4 變換數據 112

4.4.1 啞變量處理類別型數據 112

4.4.2 離散化連續型數據 114

小結 117

實訓 117

實訓1 合並年齡、平均血糖和中風患者信息數據 117

實訓2 刪除年齡異常的數據 118

實訓3 離散化年齡特徵 118

課後習題 119

第5章 Matplotlib、seaborn、pyecharts數據可視化基礎 121

任務5.1 掌握Matplotlib基礎繪圖 122

5.1.1 熟悉pyplot繪圖基礎語法與常用參數 122

5.1.2 使用Matplotlib繪制進階圖形 128

任務5.2 掌握seaborn基礎繪圖 137

5.2.1 熟悉seaborn繪圖基礎 137

5.2.2 使用seaborn繪制基礎圖形 153

任務5.3 掌握pyecharts基礎繪圖 162

5.3.1 熟悉pyecharts繪圖基礎 162

5.3.2 使用pyecharts繪制交互式圖形 166

小結 171

實訓 172

實訓1 分析學生考試成績特徵的分佈與分散情況 172

實訓2 分析學生考試成績與各個特徵之間的關系 172

實訓3 分析各空氣質量指數之間的相關關系 173

實訓4 繪制交互式基礎圖形 174

課後習題 174

第6章 使用scikit-learn構建模型 177

任務6.1 使用sklearn轉換器處理數據 178

6.1.1 加載datasets模塊中的數據集 178

6.1.2 將數據集劃分為訓練集和測試集 180

6.1.3 使用sklearn轉換器進行數據預處理 182

任務6.2 構建並評價聚類模型 184

6.2.1 使用sklearn估計器構建聚類模型 185

6.2.2 評價聚類模型 187

任務6.3 構建並評價分類模型 189

6.3.1 使用sklearn估計器構建分類模型 190

6.3.2 評價分類模型 192

任務6.4 構建並評價回歸模型 194

6.4.1 使用sklearn估計器構建線性回歸模型 194

6.4.2 評價回歸模型 197

小結 198

實訓 198

實訓1 使用sklearn處理競標行為數據集 198

實訓2 構建基於競標行為數據集的K-Means聚類模型 199

實訓3 構建基於競標行為數據集的支持向量機分類模型 200

實訓4 構建基於競標行為數據集的回歸模型 200

課後習題 200

第7章 競賽網站用戶行為分析 202

任務7.1 瞭解競賽網站用戶行為分析的背景和方法 203

7.1.1 瞭解競賽網站背景 203

7.1.2 認識用戶行為分析 204

7.1.3 熟悉競賽網站用戶行為分析的步驟與流程 204

任務7.2 預處理競賽網站用戶訪問數據 205

7.2.1 特徵值變換 205

7.2.2 用戶識別 207

7.2.3 數據清洗 208

7.2.4 網頁分類 211

7.2.5 構造特徵 213

任務7.3 對競賽網站用戶進行分群 214

7.3.1 瞭解K-Means聚類算法 214

7.3.2 使用K-Means聚類算法進行用戶分群 215

7.3.3 模型應用 217

小結 218

實訓 218

實訓1 處理某App用戶信息數據集 218

實訓2 構建與用戶使用信息相關的 特徵 219

實訓3 構建K-Means聚類模型 219

課後習題 219

第8章 企業所得稅預測分析 221

任務8.1 瞭解企業所得稅預測的背景與方法 222

8.1.1 分析企業所得稅預測背景 222

8.1.2 瞭解企業所得稅預測的方法 223

8.1.3 熟悉企業所得稅預測的步驟與流程 224

任務8.2 分析企業所得稅數據特徵的相關性 224

8.2.1 瞭解相關性分析 225

8.2.2 計算Pearson相關系數 225

任務8.3 使用Lasso回歸選取企業所得稅預測的關鍵特徵 227

8.3.1 瞭解Lasso回歸方法 227

8.3.2 選取關鍵特徵 228

任務8.4 使用灰色預測算法和SVR算法構建企業所得稅預測模型 229

8.4.1 瞭解灰色預測算法 230

8.4.2 瞭解SVR算法 231

8.4.3 預測企業所得稅 232

小結 236

實訓 236

實訓1 處理英雄聯盟游戲數據集 236

實訓2 構建游戲勝負預測關鍵特徵 237

實訓3 構建SVR模型 238

課後習題 238

第9章 餐飲企業客戶流失預測 240

任務9.1 瞭解餐飲企業客戶分析需求 241

9.1.1 瞭解餐飲企業客戶流失預測背景 241

9.1.2 認識餐飲企業客戶流失預測 243

9.1.3 熟悉餐飲企業客戶流失預測的步驟與流程 243

任務9.2 預處理餐飲企業數據 244

9.2.1 數據探索 244

9.2.2 查看重復值 246

9.2.3 處理異常值 246

9.2.4 處理缺失值 247

9.2.5 構建客戶流失特徵 248

任務9.3 使用決策樹算法和支持向量機算法進行餐飲企業客戶流失預測 250

9.3.1 瞭解決策樹算法 250

9.3.2 瞭解支持向量機算法 252

9.3.3 預測餐飲企業客戶流失 253

小結 255

實訓 256

實訓1 預處理尺碼信息數據 256

實訓2 構建支持向量機分類模型預測客戶

服裝尺寸 256

課後習題 257

第 10章 基於TipDM大數據挖掘建模平臺實現客戶流失預測 259

任務10.1 瞭解平臺的相關概念、特點和功能 260

10.1.1 瞭解平臺的界面、訪問方式和特點 260

10.1.2 瞭解“實訓庫”模塊的功能 261

10.1.3 瞭解“數據連接”模塊的功能 261

10.1.4 瞭解“實訓數據”模塊的功能 262

10.1.5 瞭解“我的實訓”模塊的功能 262

10.1.6 瞭解“系統算法”模塊的功能 263

10.1.7 瞭解“個人算法”模塊的功能 265

任務10.2 使用平臺實現客戶流失預測 265

10.2.1 掌握使用平臺配置客戶流失預測案例的步驟和流程 265

10.2.2 數據源配置 266

10.2.3 數據預處理 268

10.2.4 構建模型 273

小結 275

實訓 275

實訓 預測客戶服裝尺寸 275

課後習題 276