Python大數據處理與分析項目實戰
安俊秀 陶鼎文 潘益民
- 出版商: 人民郵電
- 出版日期: 2025-06-01
- 售價: $419
- 語言: 簡體中文
- 頁數: 205
- ISBN: 7115657327
- ISBN-13: 9787115657329
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書圍繞大數據處理與分析,對其相關技術進行了詳細的講解。全書共9章,首先介紹了大數據分析的基本概念及可用的方法技術,然後介紹了如何使用Excel進行數據分析,包括數據探索與描述性分析、使用函數和工具、使用透視表與透視圖等;介紹了如何使用Power BI進行數據分析,包括數據集成、數據清洗、數據規約、數據變換的基本操作,以及DAX函數的使用;介紹了如何使用Numpy進行數據計算以及如何使用Pandas進行數據分析。隨後,介紹了一些數據可視化方法,分別介紹了Excel和Power BI中的數據可視化方法,還介紹了使用Matplotlib進行數據可視化的方法。最後,介紹了機器學習基礎,並講解了兩個實踐案例。本書從理論、實踐兩部分對大數據處理與分析進行了細致的講解,旨在幫助讀者更好地了解、使用大數據處理與分析的相關方法。
作者簡介
安俊秀 主要研究方向為大數據分析與挖掘、人工智能等。現為成都信息工程大學並行計算與大數據研究所負責人,軟件自動生成與智能服務四川省重點實驗室學術帶頭人(領域知識本體和大數據方向)。在國內率先提出程序流模型,並將信息片段的消重和聚合處理過程並行化,實現數據的高效處理。
目錄大綱
第 1章 大數據分析基礎 8
任務1.1 大數據分析的基本概念 8
1.1.1 大數據的定義與發展歷程 8
1.1.2 大數據的特征 9
1.1.3 大數據分析的挑戰 11
任務1.2 大數據分析方法與技術 14
1.2.1 統計分析與描述性分析 14
1.2.2 可視化分析 15
1.2.3 數據挖掘與機器學習 16
任務1.3 Python解釋器與數據分析環境 17
1.3.1 安裝Python解釋器 17
1.3.2 安裝IPython與Jupyter Notebook 24
習題 27
第 2章 Excel 數據分析技術 28
任務2.1 Excel數據分析概覽 28
2.1.1 Excel基本介紹 28
2.1.2 Excel相關概念 29
2.1.3 獲取外部數據 31
任務2.2 Excel數據探索與描述性分析 32
2.2.1 排序與篩選 32
2.2.2 數據分類匯總 41
2.2.3 條件格式 45
任務2.3 使用Excel函數和工具進行數據分析 47
2.3.1 統計函數 47
2.3.2 文本函數 53
2.3.3 日期和時間函數 55
2.3.4 數學函數 58
任務2.4 Excel數據透視表與透視圖 61
2.4.1 數據透視的作用 61
2.4.2 數據透視表 61
2.4.3 數據透視圖 65
習題 67
第3章 Power BI數據分析技術 68
任務3.1 Power BI數據分析概覽 68
3.1.1 Power BI的安裝 68
3.1.2 Power BI的界面與功能 73
3.1.3 Power BI Desktop與Power BI Service 80
3.1.4 數據加載與數據連接 82
任務3.2 Power BI基本操作 90
3.2.1 數據集成 90
3.2.2 數據清洗 91
3.2.3 數據歸約 92
3.2.4 數據變換 93
任務3.3 數據建模分析 93
3.3.1 數據表關系 93
3.3.2 創建與管理數據模型 94
3.3.3 使用DAX進行數據計算 95
3.3.4 常用DAX函數介紹 99
習題 103
第4章 使用NumPy進行數據計算 106
任務4.1 NumPy數據計算概述 106
4.1.1 NumPy的安裝 106
4.1.2 NumPy的優勢與應用場景 106
任務4.2 NumPy的數組對象 107
4.2.1 創建數組對象 107
4.2.2 數組對象的常用屬性 109
4.2.3 數組元素的訪問與修改 110
4.2.4 數組對象的基礎運算 112
4.2.5 數組對象的常用函數 114
任務4.3 NumPy的運算操作 118
4.3.1 位運算函數 118
4.3.2 數學函數 120
4.3.3 算術函數 121
4.3.4 統計函數 123
4.3.5 線性代數函數 125
習題 128
第5章 使用Pandas進行數據分析 130
任務5.1 Pandas數據分析概覽 130
5.1.1 Pandas的安裝 131
5.1.2 Pandas數據結構 131
任務5.2 Pandas的基本操作 134
5.2.1 導入與導出數據 134
5.2.2 數據的查看與描述 137
5.2.3 數據的選擇與索引 140
5.2.4 數據的增刪查改 142
任務5.3 Pandas分析方法 144
5.3.1 數據統計 144
5.3.2 算術運算與數據對齊 151
習題 153
第6章 Excel和Power BI數據可視化 155
任務6.1 使用Excel進行數據可視化展示 155
6.1.1 在Excel中插入圖表 156
6.1.2 Excel圖表相關要素 157
6.1.3 常用Excel圖表類型 159
任務6.2 使用Power BI進行數據可視化分析 172
6.2.1 Power BI數據可視化方法 172
6.2.2 對比分析——條形圖、柱形圖、雷達圖、漏鬥圖 174
6.2.3 結構分析——餅圖、環形圖、瀑布圖、樹狀圖 178
6.2.4 相關分析——散點圖、折線圖 181
6.2.5 描述性分析——表、箱線圖 183
6.2.6 KPI分析——儀表、KPI Indicator、子彈圖 184
習題 187
第7章 使用Matplotlib進行數據可視化 189
任務7.1 Matplotlib數據可視化概覽 189
7.1.1 Matplotlib的安裝 189
7.1.2 Matplotlib繪圖步驟 190
任務7.2 Matplotlib基本圖形元素 191
7.2.1 數據表達 192
7.2.2 圖形標簽和文本 193
7.2.3 圖形格式和基本樣式 197
任務7.3 典型圖形繪制 199
7.3.1 折線圖 199
7.3.2 散點圖 200
7.3.3 柱狀圖 202
7.3.4 餅圖 204
7.3.5 直方圖 206
7.3.6 箱線圖 208
習題 210
第8章 機器學習基礎 214
任務8.1 機器學習介紹 214
8.1.1 機器學習是什麼 214
8.1.2 機器學習的任務分類 215
8.1.3 機器學習流程 217
8.1.4 用Python實現機器學習算法 218
任務8.2 分類分析 249
8.2.1 分類分析是什麼 249
8.2.2 分類評價指標 250
8.2.3 決策樹與隨機森林 251
8.2.4 樸素貝葉斯算法 253
任務8.3 聚類分析 254
8.3.1 聚類分析是什麼 254
8.3.2 聚類評價指標 256
8.3.3 K均值聚類算法 257
任務8.4 關聯規則分析 258
8.4.1 什麼是關聯規則 258
8.4.2 關聯規則指標 260
8.4.3 Apriori算法 261
習題 262
第9章 實踐案例 266
任務9.1 電商網站用戶行為分類分析 267
9.1.1 特征工程 267
9.1.2 模型選擇和訓練 269
9.1.3 模型評估和優化 270
9.1.4 預測和應用 272
任務9.2 文本聚類分析 274
9.2.1 特征工程 274
9.2.2 聚類算法選擇和實現 277
9.2.3 聚類結果分析和可視化 282
9.2.4 預測和應用 283
習題 286