機器學習實戰:使用 R、tidyverse 和 mlr Machine Learning with R, Tidyverse, and Mlr

Hefin Rhys 但波,高山,韓建立 譯

  • 機器學習實戰:使用 R、tidyverse 和 mlr-preview-1
  • 機器學習實戰:使用 R、tidyverse 和 mlr-preview-2
  • 機器學習實戰:使用 R、tidyverse 和 mlr-preview-3
機器學習實戰:使用 R、tidyverse 和 mlr-preview-1

買這商品的人也買了...

商品描述

《機器學習實戰使用R、tidyverse和mlr》將使用RStudio和非常棒的mlr程序包開啟你的機器學習之旅。這本實用指南簡化了理論,避免了不必要的復雜統計和數學知識,所有核心的機器學習技術都通過圖形和易於掌握的示例進行清晰的解釋。每一章的內容都十分引人入勝,你將掌握如何把新的算法付諸實踐,以解決各種預測分析問題,包括泰坦尼克沉船事件中不同乘客的幸存概率、垃圾郵件過濾、毒酒事件調查等。 主要內容 使用tidyverse程序包處理和繪制數據 監督機器學習和非監督機器學習技術 分類、回歸、降維和聚類算法 統計學基礎

作者簡介

Hefin I. Rhys是一位有著8年教授R語言、統計學和機器學習經驗的生命科學家和細胞學家。
他將自己的統計學/機器學習知識貢獻給多項學術研究,並熱衷於講授統計學、機器學習和數據可視化方面的課程。

目錄大綱

第Ⅰ部分簡介
第1章機器學習介紹 2
1.1 機器學習的概念 3
1.2 機器學習算法的分類 7
1.3 關於機器學習道德影響的思考12
1.4 使用R語言進行機器學習的原因13
1.5 使用哪些數據集13
1.6 從本書可以學到什麼13
1.7 本章小結14

第2章使用tidyverse整理、操作和繪製數據15
2.1 tidyverse和整潔數據的概念15
2.2 加載tidyverse 17
2.3 tibble程序包及其功能介紹17
2.4 dplyr程序包及其功能介紹21
2.5 ggplot2程序包及其功能介紹26
2.6 tidyr程序包及其功能介紹29
2.7 purrr程序包及其功能介紹32
2.8 本章小結38
2.9 練習題答案38

第Ⅱ部分分類算法
第3章基於相似性的k近鄰分類42
3.1 k近鄰算法的概念42
3.2 建立第一個kNN模型45
3.3 平衡模型誤差的兩個來源:偏差-方差權衡51
3.4 運用交叉驗證判斷是否過擬合或欠擬合52
3.5 交叉驗證kNN模型53
3.6 算法將要學習的內容以及它們必須知道的內容:參數和超參數59
3.7 調節k值以改進模型60
3.8 kNN算法的優缺點64
3.9 本章小結64
3.10 練習題答案65

第4章對數機率回歸分類67
4.1 什麼是對數機率回歸67
4.2 建立第一個對數機率回歸模型74
4.3 交叉驗證對數機率回歸模型81
4.4 理解模型:機率比83
4.5 使用模型進行預測84
4.6 對數機率回歸算法的優缺點84
4.7 本章小結85
4.8 練習題答案85

第5章基於判別分析的最大分離方法88
5.1 什麼是判別分析88
5.2 構建線性和二次判別模型95
5.3 LDA和QDA算法的優缺點100
5.4 本章小結101
5.5 練習題答案101

第6章樸素貝葉斯和支持向量機分類算法103
6.1 什麼是樸素貝葉斯算法104
6.2 建立第一個樸素貝葉斯模型107
6.3 樸素貝葉斯算法的優缺點110
6.4 什麼是支持向量機(SVM)算法110
6.5 構建第一個SVM模型117
6.6 交叉驗證SVM模型123
6.7 SVM算法的優缺點124
6.8 本章小結124
6.9 練習題答案125

第7章決策樹分類算法127
7.1 什麼是遞歸分區算法127
7.2 構建第一個決策樹模型133
7.3 加載和研究zoo數據集134
7.4 訓練決策樹模型134
7.5 交叉驗證決策樹模型139
7.6 決策樹算法的優缺點140
7.7 本章小結140

第8章使用隨機森林算法和boosting技術改進決策樹142
8.1 集成學習技術:bagging、boosting和stacking 142
8.2 建立第一個隨機森林模型148
8.3 建立第一個XGBoost模型150
8.4 隨機森林和XGBoost算法的優缺點155
8.5 在算法之間進行基準測試155
8.6 本章小結156

第Ⅲ部分回歸算法
第9章線性回歸158
9.1 什麼是線性回歸158
9.2 建立第一個線性回歸模型163
9.3 線性回歸的優缺點178
9.4 本章小結178
9.5 練習題答案179

第10章廣義加性模型的非線性回歸180
10.1 使用多項式項使線性回歸非線性180
10.2 更大的靈活性:樣條曲線和廣義加性模型182
10.3 建立第一個GAM 184
10.4 GAM的優缺點188
10.5 本章小結188
10.6 練習題答案189

第11章利用嶺回歸、LASSO回歸和彈性網絡控製過擬合190
11.1 正則化的概念190
11.2 嶺回歸的概念191
11.3 L2範數的定義及其在嶺回歸中的應用193
11.4 L1範數的定義及其在LASSO中的應用195
11.5 彈性網絡的定義197
11.6 建立嶺回歸、LASSO和彈性網絡模型198
11.7 對嶺回歸、LASSO、彈性網絡和OLS進行基準測試並對比210
11.8 嶺回歸、LASSO和彈性網絡的優缺點211
11.9 本章小結212
11.10 練習題答案212

第12章使用kNN、隨機森林和XGBoost進行回歸215
12.1 使用kNN算法預測連續變量215
12.2 使用基於決策樹的算法預測連續變量217
12.3 建立第一個kNN回歸模型219
12.4 建立第一個隨機森林回歸模型226
12.5 建立第一個XGBoost回歸模型227
12.6 對kNN、隨機森林和XGBoost模型的構建過程進行基準測試229
12.7 kNN、隨機森林和XGBoost算法的優缺點230
12.8 本章小結230
12.9 練習題答案231

第Ⅳ部分降維算法
第13章最大化方差的主成分分析法234
13.1 降維的目的234
13.2 主成分分析的概念236
13.3 構建第一個PCA模型240
13.4 PCA的優缺點247
13.5 本章小結247
13.6 練習題答案247

第14章最大化t-SNE和UMAP的相似性249
14.1 t-SNE的含義249
14.2 建立第一個t-SNE模型253
14.3 UMAP的含義256
14.4 建立第一個UMAP模型258
14.5 t-SNE和UMAP的優缺點261
14.6 本章小結261
14.7 練習題答案262

第15章自組織映射和局部線性嵌入263
15.1 先決條件:節點網格和流形263
15.2 自組織映射的概念264
15.3 建立第一個SOM 268
15.4 局部線性嵌入的概念277
15.5 建立第一個LLE 278
15.6 建立跳蚤數據集的LLE 282
15.7 SOM和LLE的優缺點283
15.8 本章小結284
15.9 練習題答案284

第Ⅴ部分聚類算法
第16章使用k-均值算法尋找中心聚類288
16.1 k-均值算法的定義288
16.2 建立第一個k-均值算法模型292
16.3 k-均值算法的優缺點304
16.4 本章小結304
16.5 練習題答案304

第17章層次聚類306
17.1 什麼是層次聚類306
17.2 建立第一個聚合層次聚類模型311
17.3 聚類穩定嗎318
17.4 層次聚類的優缺點320
17.5 本章小結320
17.6 練習題答案320

第18章基於密度的聚類:DBSCAN和OPTICS 323
18.1 基於密度的聚類的定義323
18.2 建立DBSCAN模型331
18.3 建立OPTICS模型343
18.4 基於密度的聚類的優缺點345
18.5 本章小結346
18.6 練習題答案346

第19章基於混合建模的分佈聚類348
19.1 混合模型聚類的概念348
19.2 建立第一個用於聚類的高斯混合模型353
19.3 混合模型聚類的優缺點356
19.4 本章小結357
19.5 練習題答案357

第20章最終筆記和進一步閱讀359
20.1 簡要回顧機器學習概念359
20.2 學完本書後,還可以學習哪些內容367
20.3 結語369

附錄複習統計學概念370