Python數據分析從小白到專家

田越

  • 出版商: 電子工業
  • 出版日期: 2021-04-01
  • 定價: $528
  • 售價: 7.5$396
  • 語言: 簡體中文
  • 頁數: 300
  • 裝訂: 平裝
  • ISBN: 7121409232
  • ISBN-13: 9787121409233
  • 相關分類: Data Science
  • 立即出貨 (庫存 < 4)

商品描述

本書共13章,主要內容涵蓋Python語法及數據分析方法。第1章主要介紹數據分析的概念,使讀者有一個大致的印象,並簡單介紹本書頻繁使用的Python的5個第三方庫。第2章主要做一些準備工作,手把手帶讀者搭建Python環境,包括Python 3.7.6的安裝和pip的安裝。第3章介紹Python編程基礎。第4章到第7章介紹使用Python進行簡單數據分析的基礎庫,包括NumPy、Pandas和Matplotlib庫,並介紹使用正則表達式處理數據的方法。第8章到第13章屬於進階內容,但也是Python數據分析的基礎,結合機器學習介紹一些常見的用於數據分析的機器學習算法及常用的數學模型。

作者簡介

田越:曾參加藍橋杯和ACM等算法競賽,以及微軟公司舉辦的創新杯競賽,對於數據分析技術有著執著的追求,善於在學習中發現自己的不足,並將其轉化為努力向前的動力。

目錄大綱

第1章數據分析存在的意義1
1.1數據分析與Python1
1.1.1數據科學和數據分析的始末1
1.1.2為什麼使用Python作為腳本2
1.2本書的主要內容3
1.2.1數據分析基礎:NumPy、Pandas和Matplotlib庫概述3
1.2.2數據處理:NumPy庫簡介4
1.2.3數據處理:Pandas庫簡介4
1.2.4圖表繪製:Matplotlib庫簡介5
1.2.5中堅力量:Sklearn和Statsmodels庫簡介5

第2章開始前的準備6
2.1 Python 3.7.6的安裝6
2.1.1 Python3和Python2的區別6
2.1.2在Windows 10系統中下載並安裝Python 3.7.67
2.1.3手動配置環境變量10
2.2 pip的安裝12
2.2.1 pip是什麼12
2.2.2在Windows系統中下載和安裝pip12
2.2.3使用pip命令下載和管理pip14

第3章Python編程基礎17
3.1 Python編程初識18
3.1.1 22個Python程序18
3.1.2整型、浮點型、布爾型與復數型19
3.1.3不同數據類型之間的運算法則22
3.1.4 Python中的常用內建函數25
3.2 Python編程常用類型27
3.2.1 Python的列表27
3.2.2 Python的元組31
3.2.3 Python的字典34
3.2.4 Python的字符串38
3.3 Python的條件、循環和分支語句以及異常處理42
3.3.1 Python的編程風格42
3.3.2錯誤、異常和異常處理43
3.3.3條件語句:if、if-else和elif45
3.3.4循環語句:while和for46
3.4其他關於Python的重要知識點49
3.4.1匿名函數lambda49
3.4.2 Python自定義類與打印函數51

第4章線性代數知識和第三方庫NumPy的使用54
4.1必要的線性代數知識55
4.1.1線性代數綜述55
4.1.2行列式56
4.1.3矩陣及矩陣的運算60
4.1.4矩陣的初等變換與秩、向量組與線性相關65
4.1.5相似矩陣67
4.2 NumPy庫的基礎操作69
4.2.1 NumPy庫的安裝和基本方法69
4.2.2創建一個數組70
4.2.3索引、切片和迭代73
4.2.4拼合、劃分一個矩陣79
4.2.5深拷貝、淺拷貝與不拷貝84
4.3用NumPy庫實現矩陣運算87
4.3.1矩陣基本運算一(矩陣加法、矩陣減法、矩陣數乘)87
4.3.2矩陣基本運算二(矩陣相乘、逆矩陣、矩陣的特徵值和特徵向量)88

第5章使用正則表達式處理數據91
5.1 RE模塊簡述91
5.1.1正則表達式(RE )模塊使用的符號92
5.1.2正則表達式的匹配規則93
5.2使用正則表達式模塊94
5.2.1匹配對象方法group()和groups()的用法95
5.2.2使用管道符進行匹配98
5.2.3使用*、+、?、{}符號實現多個條件匹配99
5.2.4一些特殊格式的正則表達式匹配模式100

第6章使用Pandas庫處理數據101
6.1 Pandas庫簡述101
6.1.1 Pandas庫能做什麼101
6.1.2 Pandas庫功能簡述105
6.2三種格式的文件後綴簡述108
6.2.1什麼是CSV文件108
6.2.2 Python自帶的CSV模塊109
6.2.3為什麼要將TXT和Excel文件轉化為CSV文件111
6.3處理.csv格式的數據111
6.3.1用read_csv()和head()讀取CSV文件並顯示其行/列112
6.3.2查看列數、維度以及切片操作112
6.3.3讀取特定的列以及列的改值操作113
6.3.4求某一列的2大值、2小值、算術平均數以及數據的排序114
6.3.5 Pandas庫的寫入操作――to_csv()方法115
6.4處理非.csv格式的數據116
6.4.1用Pandas庫讀取TXT文件116
6.4.2用Pandas庫讀取Excel文件118
6.5 Pandas庫的其他常用操作121
6.5.1新增DataFrame數據結構的意義121
6.5.2創建與遍歷DataFrame數據結構122
6.5.3檢索已有的DataFrame數據結構124
6.5.4 DataFrame數據結構的選擇操作128
6.5.5處理DataFrame數據結構中的缺失數據134

第7章使用Matplotlib庫實現數據可視化136
7.1 Matplotlib庫簡述136
7.1.1 Matplotlib庫的安裝137
7.1.2 Matplotlib庫常見的問題138
7.2 Matplotlib庫的基本方法139
7.2.1設定x軸與y軸的相關內容139
7.2.2 “點”和“線”樣式的設定144
7.3使用Matplotlib庫繪製圖表146
7.3.1繪製柱狀圖147
7.3.2繪製直方圖149
7.3.3繪製散點圖151
7.3.4繪製餅狀圖153
7.3.5繪製折線圖155

第8章數學模型與數理統計157
8.1走進數學模型158
8.1.1什麼是數學模型158
8.1.2建立數學模型的一般步驟160
8.1.3數學模型示例162
8.2必要的數理統計知識164
8.2.1樣本、總體、個體、統計量164
8.2.2 3個重要的分佈:χ2分佈、t分佈、f分佈165
8.2.3點估計、矩估計與區間估計167
8.2.4全概率公式和貝葉斯公式168
8.2.5依概率收斂與切比雪夫不等式170

第9章線性回歸172
9.1 2小二乘法與切比雪夫準則172
9.1.1 2小二乘法的數學原理173
9.1.2切比雪夫準則的數學原理175
9.2 OLS回歸模型175
9.2.1 OLS回歸模型的概念176
9.2.2如何生成測試數據176
9.2.3 OLS回歸模型的代碼實現和可視化179
9.3 LAD回歸模型182
9.3.1 LAD回歸模型的概念182
9.3.2 LAD回歸模型的代碼實現和可視化183
9.4 OLS回歸模型與LAD回歸模型186
9.4.1比較OLS回歸模型與LAD回歸模型的擬合曲線186
9.4.2簡單的一元線性回歸分析的代碼展示187
9.5從極大似然估計再審視線性回歸189
9.5.1從傳統的數理統計到線性回歸189
9.5.2極大似然估計190
9.5.3假設檢驗基本概念191
9.5.4區間估計、置信區間和置信限192

第10章分類問題與邏輯回歸197
10.1邏輯回歸:從分類問題談起197
10.1.1從線性回歸到分類問題198
10.1.2邏輯回歸與Sigmoid函數199
10.1.3使用極大似然估計計算Sigmoid函數的損失函數201
10.1.4邏輯回歸模型求解的本質202
10.2從梯度上升法與梯度下降法到邏輯回歸202
10.2.1梯度上升法和梯度下降法的由來202
10.2.2梯度下降法及梯度上升法的數學原理203
10.2.3用Python實現邏輯回歸206
10.2.4題外話:從用Python實現邏輯回歸中看psutil庫216
10.2.5邏輯回歸可視化:繪製決策邊界220

第11章模型評估與模型改進223
11.1線性回歸模型的評估與改進223
11.1.1線性回歸模型的評估224
11.1.2模型改進:從一元線性回歸到多元線性回歸問題231
11.1.3模型改進:過度擬合與添加、設定懲罰項238
11.2邏輯回歸模型的評估與改進239
11.2.1分類模型的評估:查准率、查全率及F-score239
11.2.2分類模型的評估:ROC曲線、AUC指標241
11.2.3模型改進:隨機梯度下降法242
11.2.4邏輯回歸2終代碼展示(使用隨機梯度下降法)245

第12章聚類:K-means算法248
12.1 K-means算法及相關內容的基本概念248
12.1.1聚類與機器學22概念249
12.1.2聚類:K-means算法的原理250
12.2 K-means算法的Python實現253
12.2.1樸素的K-means算法的Python實現253
12.2.2樸素的K-means算法的Python實現的具體解析256
12.2.3模型改進:使用不同顏色和形狀標記不同的簇261
12.2.4 K-means算法改進:使用二分K-means算法263

第13章分類:KNN算法271
13.1 KNN算法的基本概念271
13.1.1 KNN算法的相關概念271
13.1 .2 KNN算法原理概述272
13.2 KNN算法的Python實現274
13.2.1製作測試用例數據集274
13.2.2 KKN算法的具體實現279
13.2.3 KKN算法的完整代碼282
13.3結語:關於數據分析285
13.3.1決策樹之前:樹的概念285
13.3.2信息熵和決策樹285
13.3.3寫在最後的話:留給機器學習286