Python數據分析與挖掘

齊福利 楊 玲

  • 出版商: 人民郵電
  • 出版日期: 2023-11-01
  • 定價: $359
  • 售價: 8.5$305
  • 語言: 簡體中文
  • 頁數: 222
  • ISBN: 7115622213
  • ISBN-13: 9787115622211
  • 相關分類: Data Science
  • 下單後立即進貨 (約2週~3週)

  • Python數據分析與挖掘-preview-1
  • Python數據分析與挖掘-preview-2
Python數據分析與挖掘-preview-1

商品描述

本書面向大數據應用型人才,以任務為導向,系統地介紹Python數據分析與挖掘的常用技術與真實案例。全書共7章,第1、2章介紹Python數據分析的常用模塊及其應用,涵蓋NumPy數值計算模塊、pandas數據分析模塊,較為系統地闡述Python數據分析的方法;第3、4章介紹輕量級的數據交換格式JSON和連接MySQL數據庫的pymysql模塊,並以此進行數據綜合案例的分析;第5章介紹Matplotlib可視化模塊,用於繪制一些統計圖形;第6章主要講解Flask框架結合ECharts實現可視化效果;第7章主要講解在機器學習和數據挖掘中sklearn模塊的應用。

本書適合作為高等院校大數據專業、人工智能專業的Python教材,也可作為Python相關培訓的教材。

作者簡介

齐福利,四川大学软件工程专业硕士,讲师,信息学院专业教师、专业主任,CIW数据分析师、中国教育协会无人机专委会副秘书长、计算机行业协会工种考评员、Aopa无人机驾驶员、无人机测量测绘工程师。先后主持教育部协同育人项目一项,主持参与科研项目4项。主编参编教材2部,在国内外学术期刊发表论文十余篇,多篇被SSCI、EI收录,拥有专利1项。担任过《大数据技术原理与应用》、《python数据分析》、《JAVA程序设计》、《大数据项目实战》、《Html网页制作》、《无人机编队飞行程序设计》、《Android应用开发》《无人机模拟飞行》、《LINUX网络操作系统》、《大学信息技术》等课程建设和教学工作。先后指导学生参加国家级、省市级比赛,获得一等奖、二等奖、等各项大奖二十多次。多次荣获“三全育人”先进个人、“优秀员工”、“工会积极分子”等称号。

目錄大綱

第 1章 數值計算模塊NumPy 1

1.1 NumPy數組的創建與保存 2

1.1.1 使用基本方法創建數組 2

1.1.2 使用通用方法創建數組 3

1.1.3 讀取外部數據創建數組 6

1.1.4 數組保存為文本文件 7

1.2 NumPy數組操作 8

1.2.1 數組的數據類型操作 8

1.2.2 數組的形狀及其相關操作 10

1.2.3 數組元素訪問:索引與切片 13

1.2.4 數組運算 15

1.3 NumPy數組常用函數 19

1.3.1 統計函數 19

1.3.2 邏輯函數 24

1.3.3 離散差分函數和梯度函數 26

1.3.4 隨機函數 28

1.3.5 其他常用函數 31

1.4 股價統計分析案例 31

1.4.1 讀取南方股價數據文件 32

1.4.2 計算市盈率 34

1.4.3 計算成交額加權平均價格 35

1.4.4 計算股價的極值 36

1.4.5 計算股價方差與標準差 37

1.4.6 計算股票收益率和波動率 38

1.4.7 求平均收盤價極值分別為星期幾 41

第 2章 數據分析模塊pandas 43

2.1 pandas基礎 43

2.1.1 pandas簡介 43

2.1.2 pandas的數據結構 43

2.1.3 pandas的安裝和導入 44

2.1.4 pandas數據結構的運算操作 44

2.2 從文件讀取數據構建DataFrame 49

2.2.1 讀取csv文件 49

2.2.2 讀取txt文件 53

2.2.3 讀取Excel文件中的數據 54

2.2.4 將DataFrame保存為csv文件 55

2.3 DataFrame的訪問與刪除 57

2.3.1 訪問方式 57

2.3.2 行列的刪除 58

2.3.3 DataFrame的訪問實例 59

2.4 時間類型的轉換與處理 60

2.4.1 pandas.to_datetime() 60

2.4.2 提取年月日、時分秒、季節、星期 61

2.4.3 批量處理Datetime數據 62

2.5 數據的清洗 63

2.5.1 查找所有存在缺失值的行 63

2.5.2 刪除缺失值 64

2.5.3 填充缺失值 67

2.5.4 重復值的處理 70

2.5.5 設置與重置索引 74

2.6 數據整理 78

2.6.1 列內容模糊篩選 78

2.6.2 列數據轉換 80

2.6.3 數據處理 80

2.7 數據分析統計 84

2.7.1 數據的描述性分析 84

2.7.2 數據的分組分析 86

2.7.3 連續數據分區 91

2.7.4 數據的相關性分析 93

第3章 JSON模塊與格式轉換 97

3.1 JSON對象與Python對象 97

3.1.1 Python對象轉換為JSON對象 97

3.1.2 JSON對象轉換成Python對象 98

3.1.3 Python對象和JSON對象的對比 98

3.2 JSON文件的讀操作 99

3.2.1 保存JSON文件 99

3.2.2 讀取json文件 100

3.2.3 JSON模塊的4個函數 100

3.3 JSON文件的練習 101

3.3.1 讀取JSON文件 101

3.3.2 pprint模塊 102

3.4 打開文件 103

3.4.1 引入with打開文件的原因 103

3.4.2 使用with open()as讀寫文件 104

第4章 連接數據庫的pymysql模塊 107

4.1 在Python 3中連接MySQL 107

4.1.1 游標 107

4.1.2 使用pymysql鏈接MySQL 108

4.1.3 pymysql.connect()的參數與實例 110

4.2 pymysql的基本使用 112

4.2.1 數據庫記錄的增刪改查操作 112

4.2.2 返回字典格式數據 120

4.2.3 pymysql與pandas結合 121

第5章 matplotlib可視化模塊 125

5.1 確定畫布的大小和格局 125

5.1.1 主畫布的設置 125

5.1.2 matplotlib屬性的設置 126

5.1.3 增加子圖 127

5.1.4 解決子圖標題重疊問題 129

5.2 繪制折線圖和散點圖 130

5.2.1 plt.plot()函數的語法與基本使用 130

5.2.2 圖形的主要設置 133

5.2.3 設置x、y軸坐標刻度 136

5.2.4 在圖上添加註釋 137

5.2.5 使用plt.plot()函數繪制散點圖 140

5.3 使用plt.scatter()函數繪制散點圖 141

5.4 使用plt.bar()函數繪制條形圖 142

5.4.1 plt.bar()函數的語法與參數 143

5.4.2 堆疊條形圖 143

5.4.3 並列條形圖 144

5.4.4 條形圖(橫圖) 145

5.4.5 正負條形圖 146

5.5 使用plt.hist()函數繪制直方圖 147

5.5.1 直方圖與條形圖的區別 148

5.5.2 繪制直方圖的一般格式 148

5.6 繪制箱形圖 151

5.6.1 箱形圖的組成、形狀與作用 151

5.6.2 繪制畫箱形圖 153

5.6.3 給箱形圖添加註釋 159

5.7 雷達圖 164

5.7.1 極坐標 164

5.7.2 繪制雷達圖 164

5.8 三維圖 166

5.9 通過DataFrame生成折線圖 167

第6章 Flask框架與ECharts可視化 170

6.1 Flask框架的基本概念與使用 170

6.1.1 Flask的基本使用方法 170

6.1.2 Flask框架的概念與更多使用方法 172

6.2 ECharts的使用 175

6.2.1 下載ECharts視圖示例網頁 175

6.2.2 編號Flask程序調用示例網頁 177

6.3 Flask結合ECharts實現動態視圖 179

6.3.1 準備js支持文件 179

6.3.2 在Flask框架的程序中定義數據 182

6.3.3 修改HTML以適應Flask動態數據 184

6.4 Flask+MySQL+ECharts聯動視圖 187

6.4.1 數據庫及表的準備工作 187

6.4.2 選擇簡單柱狀圖作為模板 189

6.4.3 從MySQL中獲取數據到ECharts視圖展示 190

第7章 機器學習模塊sklearn 195

7.1 sklearn線性回歸 195

7.1.1 一元線性回歸模型訓練 195

7.1.2 線性回歸模型的評估方法 198

7.1.3 分割語句的用法 199

7.1.4 最小二乘法線性回歸 200

7.2 sklearn分類算法 202

7.2.1 與分類器相關的概念 202

7.2.2 K近鄰算法 203

7.2.3 貝葉斯算法 205

7.2.4 決策樹算法 208

7.2.5 隨機森林算法 210

7.2.6 SVM算法 211

7.3 Sklearn聚類算法 213

7.3.1 K均值聚類的基本原理 213

7.3.2 K均值聚類算法的主要參數 214

7.3.3 根據身高、體重和性別聚類 215

7.3.4 對鳶尾花數據進行K均值聚類 220