Python機器學習開發實戰

王新宇

  • 出版商: 人民郵電
  • 出版日期: 2020-08-01
  • 售價: $359
  • 貴賓價: 9.5$341
  • 語言: 簡體中文
  • 頁數: 288
  • 裝訂: 平裝
  • ISBN: 7115525277
  • ISBN-13: 9787115525277
  • 相關分類: 機器學習 Machine Learning

立即出貨

相關主題

商品描述

本書一共分為19章,
1~7章是編程基礎,為了讓那些沒有編程經驗的但是又想從事數據分析工作的學員有個入門的基礎。
8~19章則介紹了機器學習領域中常用的算法,他們分別是線性回歸,邏輯回歸,神經網絡,線性判別,
最近鄰算法,決策樹與隨機森林,樸素貝葉斯,支持向量機,主成分分析,奇異值分解,k-means聚類。
在第19章中則著重介紹了現在比較流行的深度學習框架。

作者簡介

王新宇

上海大學副教授,主講機器學習課程,研究方向包括金融行業大數據挖掘、
醫學行業大數據挖掘、圖像識別以及高性能計算。

目錄大綱


目錄
第1章環境配置與準備知識1
1.1環境配置1
1.2機器學習相關概念2
1.2.1機器學習中的數據2
1.2.2訓練集和測試集4
1.2.3欠擬合與過度擬合5
1.2.4人工智能、機器學習、深度學習5

第2章Python基礎知識6
2.1 hello world!6
2.2變量6
2.3操作符7
2.3.1基本運算符7
2.3.2比較運算符8
2.3.3邏輯運算符10
2.4字符串11
2.4.1基礎11
2.4.2轉義字符12
2.4.3索引和切片13
2.4.4字符串方法14
2.5列表18
2.6集合21
2.7字典22
2.8循環語句24
2.9判斷語句26
2.10函數26
2.11面向對象編程29

第3章數值計算擴展工具——Numpy 31
3.1創建數組31
3.1.1創建元素為0或1的數組31
3 .1.2將列表轉換為數組33
3.1.3生成一串數字33
3.1.4生成特殊數組34
3.2數組索引35
3.3排序與查詢36
3.4隨機數生成器39
3.5數學函數41
3.5.1三角函數41
3.5.2指數與對數43
3.5.3約數43
3.5.4數組自身加乘44
3.5.5算術運算45
3.6統計函數47
3.7線性代數50

第4章數據分析工具——Pandas 52
4.1序列對象Series 52
4.1.1創建Series對象52
4.1.2 Series索引53
4.1.3查看Series相關屬性56
4.1.4二元運算57
4.1.5統計方法62
4.1.6缺失值處理65
4.1.7排序66
4.1.8計數與重複67
4.1.9其他69
4.2數據框對象DataFrame 70
4.2.1創建數據框70
4.2.2行操作71
4.2.3列操作73
4.3分組對象GroupBy 75
4.3.1基本函數75
4.3.2統計函數77

第5章可視化展示庫——Matplotlib 80
5.1作圖類命令80
5.1.1折線圖80
5.1.2柱狀圖和條形圖82
5.1.3散點圖84
5.1.4餅圖85
5.1 .5面積圖86
5.2坐標軸控制88
5.2.1 axis 88
5.2.2 xlim與ylim 89
5.2.3 xticks與yticks 90
5.2.4 xlabel與ylabel 90
5.3其他設置91

第6章通用型開源機器學習庫——Scikit 93
6.1預處理94
6.1.1標準化95
6.1.2非線性轉換96
6.1.3歸一化97
6.1. 4二值化97
6.1.5分類特徵編碼98
6.1.6缺失值插補99
6.1.7生成多項式特徵100
6.2降維101
6.3有監督學習與無監督學習101
6.4模型評估102
6.4.1測試集評分102
6.4.2交叉驗證迭代器105
6.4.3分層交叉驗證迭代器108
6.4.4分組迭代器109
6.4. 5時間序列交叉驗證111

第7章機器學習常用數據集112
7.1 boston房價數據集112
7.1.1數據集基本信息描述112
7.1.2數據探索113
7.2 diabetes糖尿病數據集115
7.2.1數據基本信息描述116
7.2.2數據探索116
7.3 digits手寫字體識別數據集117
7.3.1數據集基本信息描述124
7.3.2數據集探索124
7.4 iris鳶尾花數據集127
7.4.1數據集基本信息描述127
7.4.2數據探索128
7.5 wine紅酒數據集131
7.5.1數據集基本信息描述131
7.5.2數據探索132

第8章線性回歸算法134
8.1從二次函數到機器學習134
8.1.1二次函數最優求解方法134
8.1.2梯度下降135
8.1.3梯度下降的Python實現138
8.1 .4初始值與學習速率?的選擇139
8.2深入理解線性回歸算法142
8.2.1回歸曲線的數學解釋143
8.2.2梯度下降方法求解最優直線144
8.2.3理解“機器學習”中的“學習” 145
8.2.4導數求解與梯度下降145
8.2.5學習速率?與迭代次數的設置146
8.3線性回歸算法實戰——糖尿病患者病情預測146

第9章邏輯回歸算法149
9.1邏輯回歸算法的基礎知識149
9.1.1直線分割平面149
9.1.2邏輯函數153
9.2深入理解邏輯回歸算法155
9.2.1直線分類器與邏輯回歸的結合155
9.2.2 Sigmoid函數的作用158
9.2.3邏輯回歸模型159
9.3邏輯回歸算法實戰——二維鳶尾花分類160

第10章神經網絡算法164
10.1神經網絡算法的基礎知識164
10.1.1邏輯回歸與神經網絡的關係165
10 .1.2激活函數165
10.2深入理解神經網絡算法167
10.2.1神經網絡的表示167
10.2.2做回歸的神經網絡168
10.2.3做二分類的神經網絡168
10 .2.4做多分類的神經網絡169
10.3神經網絡的應用169
10.3.1 MLPClassifier分類169
10.3.2 MLPRegressor回歸171

第11章線性判別算法173
11.1線性判別算法的核心知識173
11.1.1方差173
11.1.2投影175
11.1.3投影方式與方差的關係177
11.2線性判別算法詳解178
11.2.1投影的實際應用179
11.2.2另一種思路解決重疊問題180
11.2.3線性判別算法的實質182
11.3線性判別算法實戰——花卉分類183

第12章K最近鄰算法187
12.1 K最近鄰算法的核心知識187
12 .1.1兩點的距離公式187
12.1.2權重188
12.2 K最近鄰算法詳解188
12.2.1 K最近鄰算法原理188
12.2.2 K最近鄰算法的關鍵—— k的選擇191
12.2.3距離加權最近鄰算法191
12.3 K最近鄰算法實戰——手寫字體識別192

第13章決策樹方法與隨機森林194
13.1決策樹方法的基本知識194
13 .2決策樹方法的原理197
13.2.1信息熵198
13.2.2分割數據199
13.2.3計算信息增益201
13.3決策樹方法實戰——紅酒分類204
13.4隨機森林205

第14章貝葉斯算法206
14.1貝葉斯算法的基礎知識206
14.1.1概率206
14.1.2條件概率207
14.1.3聯合概率209
14.1.4貝葉斯定理210
14.2深入理解貝葉斯算法210
14.2.1先驗概率和後驗概率211
14.2.2詞向量211
14.2.3貝葉斯模型214
14.3貝葉斯算法實戰——文本分類222

第15章支持向量機225
15.1支持向量機的基礎知識225
15.1.1向量225
15.1.2點積228
15.1.3投影229
15.1.4向量與代數直線的關係230
15 .2深入理解支持向量機233
15.2.1超平面233
15.2.2支持向量機在二維空間的超平面234
15.2.3計算最優超平面235
15.3支持向量機實戰——鳶尾花分類237

第16章PCA降維算法240
16.1 PCA降維算法的核心知識240
16.1.1矩陣的直觀理解240
16.1.2特徵向量的本質243
16.1.3協方差244
16.1.4協方差矩陣244
16.2 PCA降維算法詳解244
16.2.1協方差矩陣的特徵向量245
16.2.2 PCA降維算法的Python實現246
16.3 PCA降維算法實戰—— iris數據集可視化247

第17章SVD奇異值分解249
17. 1 SVD奇異值分解的相關知識249
17.2深入理解矩陣作用250
17.2.1矩陣作用250
17.2.2將矩陣作用分解為特徵向量作用251
17.2.3將矩陣作用分解為奇異矩陣作用253
17.3 SVD奇異值分解的應用255
17.3.1 U矩陣的理解257
17.3.2 V矩陣的理解258
17.3.3 S矩陣的理解259

第18章聚類算法260
18.1深入理解K均值聚類算法260
18.2 Scikit庫中的K均值聚類算法264
18.3其他聚類算法266

第19章深度學習框架及其應用269
19.1 TensorFlow 269
19.1 .1 TensorFlow的基本概念269
19.1.2 TensorFlow的應用271
19.2 Keras 277
19.3 PyTorch 282
19.4 Caffe 288