集成學習實戰 Ensemble Methods for Machine Learning

[美] 高塔姆·庫納普利（Gautam Kunapuli）著郭濤譯郭濤譯

預覽內頁

出版商: 清華大學
出版日期: 2024-07-01
售價: $768
貴賓價: 9.5 折 $729
語言: 簡體中文
頁數: 313
ISBN: 7302660921
ISBN-13: 9787302660927
相關分類: Machine Learning
此書翻譯自: Ensemble Methods for Machine Learning

立即出貨

買這商品的人也買了...

~~$999~~ $899

FLAG'S 創客‧自造者工作坊 -- AI × LINE 聲控/人臉辨識生活大應用
$534

集成學習：基礎與算法
~~$1,000~~ $850

Kaggle 競賽攻頂秘笈 -- 揭開 Grandmaster 的特徵工程心法，掌握制勝的關鍵技術
$484

MATLAB 信號處理 — 算法、模擬與實現
~~$2,650~~ $2,597

Probabilistic Machine Learning: An Introduction (Hardcover)
~~$680~~ $537

高手叫我不要教的 ─ H模型：兩個指標，百倍獲利, 2/e
~~$620~~ $489

SQL 學習手冊｜資料建立、維護與檢索, 3/e (Learning SQL: Generate, Manipulate, and Retrieve Data, 3/e)
~~$4,500~~ $4,410

Probabilistic Machine Learning: Advanced Topics (Hardcover)
~~$774~~ $735

利用 FastAPI 構建 Python 微服務
$327

數字信號處理原理和算法實現, 4/e
~~$560~~ $442

AI 神助攻！程式設計新境界 – GitHub Copilot 開發 Python 如虎添翼 : 提示工程、問題分解、測試案例、除錯
~~$768~~ $729

MATLAB 電腦視覺與深度學習實戰, 2/e
~~$1,200~~ $948

AI 時代 Math 元年 - 用 Python 全精通統計及機率 (黑白印刷)
$407

Python 金融量化分析
$594

梯度提升算法實戰 — 基於 XGBoost和 scikit-learn
$934

Python 金融數據分析
$458

Adobe Photoshop + Illustrator + InDesign 協同高效應用經典教程 (Adobe Photoshop, Illustrator, and Indesign Collaboration and Workflow)
~~$774~~ $735

Python 時間序列預測
~~$780~~ $616

機器學習的訓練資料 (Training Data for Machine Learning)
$351

MATLAB App Designer 設計入門及實踐 (微課視頻版)
$458

設計師的 AI 利器 — Adobe Firefly
$351

數字信號處理 — 使用 MATLAB 分析與實現 (新形態版)
~~$594~~ $564

MATLAB R2024a 完全自學一本通
~~$700~~ $525

程式設計原來不只有寫 CODE！銜接學校與職場的五堂軟體開發實習課 = Beyond Just Coding: Five Essential Lessons from Classroom to Career in Software Development
~~$680~~ $537

全面掌握 Gemini 開發實務：輕鬆駕馭 Google AI 引擎

商品描述

"集成學習通過自動對比多個模型的輸出，將輸出結合起來，融合成強大的集成模型，得出**結果。集成學習發揮“集體智慧”，結果更準確，剋服了單一模型的局限性。這種創新方法能夠綜合多個視角的響應；即使在沒有大規模數據集的情況下，也能給出可靠的預測結果。《集成學習實戰》呈現同時應用多種機器學習方法的實用技巧。每章都列舉一個獨特案例(如醫學診斷、情感分析等)，展示一個功能完備的集成方法。本書不探討深奧的數學知識，所講內容淺顯易懂，代碼豐富，供你輕松進行實驗！主要內容 ● Bagging法、提升法和梯度提升法 ● 分類、回歸和檢索方法 ● 集成方法的模型和決策可解釋性 ● 特徵工程和集成多樣性"

作者簡介

郭濤，Turing Lab發起人，主要從事模式識別與人工智能、智能機器人技術、軟件工程技術和地理人工智能（GeoAI）、時空大數據挖掘與分析等前沿交叉領域研究。曾翻譯過《覆雜性思考：覆雜性科學和計算模型（第2版）》《神經網絡設計與實現》等多本圖書。

目錄大綱

第I部分　集成學習基礎知識

第1章　集成方法：炒作還是福音· 3

1.1　集成方法：集體智慧 4

1.2　關註集成學習原因 6

1.3　單個模型中的擬合度與復雜性 8

1.3.1　決策樹回歸 8

1.3.2　支持向量回歸 12

1.4　第一個集成模型 15

1.5　集成方法的術語和分類 19

1.6　小結 21

第II部分　基本集成方法

第2章　同質並行集成：Bagging法和隨機森林 25

2.1　並行集成 26

2.2　Bagging法：Bootstrap結合算法 27

2.2.1　直覺：重採樣和模型結合 28

2.2.2　實現Bagging法 31

2.2.3　使用scikit-learn實現Bagging法 33

2.2.4　使用並行化進行更快的訓練 35

2.3　隨機森林 36

2.3.1　隨機決策樹 36

2.3.2　使用scikit-learn實現隨機森林 38

2.3.3　特徵重要性 39

2.4　更多同質並行集成· 40

2.4.1　Pasting 40

2.4.2　隨機子空間和random patch法 41

2.4.3　極度隨機樹 42

2.5　案例研究：乳腺癌診斷 43

2.5.1　加載和預處理 43

2.5.2　Bagging法、隨機森林和極度隨機樹 44

2.5.3　隨機森林中的特徵重要性 47

2.6　小結 50

第3章　異質並行集成：結合強學習器 53

3.1　異質集成的基礎估計器 54

3.1.1　擬合基礎估計器 55

3.1.2　基礎估計器的單個預測 58

3.2　通過加權結合預測 60

3.2.1　多數投票 62

3.2.2　準確率加權 63

3.2.3　熵加權法 65

3.2.4　Dempster-Shafer結合 67

3.3　通過元學習結合預測 69

3.3.1　Stacking 70

3.3.2　通過交叉驗證進行Stacking 74

3.4　案例研究：情感分析 77

3.4.1　預處理 78

3.4.2　降低維度 81

3.4.3　blending分類器 82

3.5　小結 85

第4章　順序集成：自適應提升 87

4.1　弱學習器的順序集成 88

4.2　AdaBoost：自適應提升 90

4.2.1　直覺法：使用加權樣本進行學習 90

4.2.2　實現AdaBoost 93

4.2.3　使用scikit-learn的AdaBoost 99

4.3　AdaBoost在實踐中的應用 101

4.3.1　學習率· 102

4.3.2　早停和剪枝 104

4.4　案例研究：手寫數字分類 106

4.4.1　利用 t-SNE降維 107

4.4.2　提升 109

4.5　LogitBoost：使用邏輯損失進行提升 112

4.5.1　邏輯損失函數與指數損失函數 112

4.5.2　將回歸作為分類的弱學習算法 113

4.5.3　實現LogitBoost 113

4.6　小結 116

第5章　順序集成：梯度提升 117

5.1　用梯度下降實現最小化 118

5.1.1　舉例說明梯度下降 119

5.1.2　在損失函數上進行梯度下降訓練 125

5.2　梯度提升：梯度下降+提升 128

5.2.1　直覺：使用殘差學習 128

5.2.2　實現梯度提升 132

5.2.3　使用scikit-learn進行梯度提升 136

5.2.4　基於直方圖的梯度提升 138

5.3　LightGBM：梯度提升框架 140

5.3.1　為何將LightGBM稱為“輕量級” 140

5.3.2　利用LightGBM進行梯度提升 142

5.4　LightGBM在實踐中的應用 143

5.4.1　學習率 143

5.4.2　早停 146

5.4.3　自定義損失函數 148

5.5　案例研究：文檔檢索 151

5.5.1　LETOR數據集 151

5.5.2　使用LightGBM進行文檔檢索 153

5.6　小結 156

第6章　順序集成：牛頓提升 157

6.1　最小化牛頓法 158

6.1.1　舉例說明牛頓法 160

6.1.2　訓練過程中的損失函數的牛頓下降· 165

6.2　牛頓提升：牛頓法+ Boosting 167

6.2.1　直覺：使用加權殘差進行學習 167

6.2.2　直覺：使用正則化損失函數進行學習 170

6.2.3　實現牛頓提升 173

6.3　XGBoost：牛頓提升框架 177

6.3.1　XGBoost的“極端”之處在哪裡？ 178

6.3.2　XGBoost的牛頓提升 179

6.4　XGBoost實踐 181

6.4.1　學習率 181

6.4.2　早停 184

6.5　案例研究：文檔檢索 185

6.5.1　LETOR數據集 185

6.5.2　使用XGBoost進行文檔檢索 186

6.6　小結 188

第III部分　集成之外：將集成方法應用於你的數據

第7章　學習連續和計數標簽 193

7.1　回歸的簡要回顧 194

7.1.1　連續標簽的線性回歸 194

7.1.2　用於計數標簽的泊松回歸 200

7.1.3　用於分類標簽的邏輯回歸 203

7.1.4　廣義線性模型 204

7.1.5　非線性回歸 205

7.2　回歸的並行集成 208

7.2.1　隨機森林和極度隨機樹 209

7.2.2　結合回歸模型 212

7.2.3　Stacking回歸模型 213

7.3　用於回歸的順序集成 214

7.3.1　用於回歸的損失和似然函數 216

7.3.2　LightGBM和XGBoost的梯度提升 218

7.4　案例研究：需求預測 221

7.4.1　UCI自行車共享數據集 222

7.4.2　GLM和Stacking· 224

7.4.3　隨機森林和極度隨機樹 227

7.4.4　XGBoost和LightGBM 228

7.5　小結 231

第8章　學習分類特徵 233

8.1　編碼分類特徵 234

8.1.1　分類特徵的類型 235

8.1.2　有序編碼和獨熱編碼 235

8.1.3　使用目標統計信息進行編碼 238

8.1.4　類別編碼器包 244

8.2　CatBoost：有序提升框架 247

8.2.1　有序目標統計和有序提升 247

8.2.2　無意識決策樹 249

8.2.3　CatBoost實踐 250

8.3　案例研究：收入預測 253

8.3.1　adult數據集 254

8.3.2　創建預處理和建模流程 256

8.3.3　類別編碼和集成 259

8.3.4　有序編碼和CatBoost提升 261

8.4　編碼高基數字符串特徵 263

8.5　小結 267

第9章　集成學習可解釋性 269

9.1　可解釋性的含義 270

9.1.1　黑盒與白盒模型 270

9.1.2　決策樹(和決策規則) 273

9.1.3　廣義線性模型 276

9.2　案例研究：數據驅動的營銷 278

9.2.1　銀行營銷數據集 279

9.2.2　訓練集成 281

9.2.3　樹集成中的特徵重要性 282

9.3　全局可解釋性的黑盒方法 283

9.3.1　排列特徵重要性 284

9.3.2　部分依賴圖 286

9.3.3　全局代理模型· 289

9.4　適用於局部可解釋性的黑盒方法 292

9.4.1　借助LIME的局部代理模型 292

9.4.2　借助SHAP的局部可解釋性 296

9.5　白盒集成：訓練解釋性 302

9.5.1　可解釋性提升機 303

9.5.2　EBM實踐 306

9.6　小結 309

結語 311