模式識別與機器學習

Christopher M. Bishop

相關主題

商品描述

本書深入而系統地介紹了模式識別和機器學習領域的基本概念、數學原理和核心算法,並附有豐富的習題。作為機器學習領域的“ ”,本書融合了概率論、統計學、線性代數和優化理論,構建了從基礎概念到前沿技術的完整知識體系,內容涵蓋決策論、概率分布、線性回歸模型、線性分類模型、神經網絡、核方法、稀疏核機、圖模型、混合模型與 期望算法、近似推斷、采樣方法、連續潛變量、序列數據、模型組合等。本書適合計算機專業高年級本科生和低年級碩士生閱讀,也適合作為機器學習從業人員和愛好者的參考資料。

作者簡介

克裏斯托弗·M. 畢曉普(Christopher M. Bishop),微軟公司技術研究員、微軟科學研究院科學智能中心(Microsoft Research AI4Science)主任。劍橋大學達爾文學院院士、英國皇家工程院院士、愛丁堡皇家學會院士和倫敦皇家學會院士。

目錄大綱

第 1 章 緒論 ... 1

1.1 示例:多項式曲線擬合 ... 3

1.2 概率論 ... 9

 1.2.1 概率密度 ... 14

 1.2.2 期望與協方差 ... 15

 1.2.3 貝葉斯概率 ... 16

 1.2.4 高斯分布 ... 19

 1.2.5 再論曲線擬合 ... 22

 1.2.6 貝葉斯曲線擬合 ... 23

1.3 模型選擇 ... 24

1.4 維度災難 ... 26

1.5 決策論 ... 28

 1.5.1 最小化誤分類率 ... 29

 1.5.2 最小化預期損失 ... 31

 1.5.3 拒絕選項 ... 31

 1.5.4 推斷與決策 ... 32

 1.5.5 回歸問題的損失函數 ... 35

1.6 信息論 ... 37

 1.6.1 相對熵與互信息 ... 42

習題 ... 44

第 2 章 概率分布 ... 51

2.1 二元變量 ... 52

 2.1.1 β 分布 ... 54

2.2 多項式變量 ... 57

 2.2.1 狄利克雷分布 ... 58

2.3 高斯分布 ... 60

 2.3.1 條件高斯分布 ... 65

 2.3.2 邊緣高斯分布 ... 68

 2.3.3 高斯變量的貝葉斯定理 ... 70

 2.3.4 高斯分布的最大似然估計 ... 72

 2.3.5 序貫估計 ... 73

 2.3.6 高斯分布的貝葉斯推斷 ... 75

 2.3.7 學生 t 分布 ... 79

 2.3.8 周期變量 ... 81

 2.3.9 高斯混合模型 ... 85

2.4 指數族分布 ... 87

 2.4.1 最大似然估計與充分統計量 ... 89

 2.4.2 共軛先驗 ... 90

 2.4.3 無信息先驗 ... 91

2.5 非參數方法 ... 93

 2.5.1 核密度估計 ... 94

 2.5.2 最近鄰方法 ... 96

習題 ... 98

第 3 章 線性回歸模型 ... 107

3.1 線性基函數模型 ... 108

 3.1.1 最大似然估計與最小二乘法 ... 110

 3.1.2 最小二乘解的幾何解釋 ... 112

 3.1.3 序貫學習 ... 112

 3.1.4 正則化最小二乘法 ... 113

 3.1.5 多重輸出 ... 114

3.2 偏差 - 方差分解 ... 115

3.3 貝葉斯線性回歸模型 ... 119

 3.3.1 參數分布 ... 119

 3.3.2 預測分布 ... 122

 3.3.3 等效核 ... 123

3.4 貝葉斯模型比較 ... 125

3.5 證據近似 ... 129

 3.5.1 計算證據函數 ... 130

 3.5.2 最大化證據函數 ... 131

 3.5.3 有效參數量 ... 132

3.6 固定基函數的局限性 ... 134

習題 ... 135

第 4 章 線性分類模型 ... 139

4.1 判別函數 ... 141

 4.1.1 二分類 ... 141

 4.1.2 多分類 ... 142

 4.1.3 分類問題中的最小二乘法 ... 143

 4.1.4 費希爾線性判別 ... 145

 4.1.5 費希爾線性判別與最小二乘法的關系 ... 147

 4.1.6 多分類費希爾判別 ... 148

 4.1.7 感知機算法 ... 150

4.2 概率生成式模型 ... 153

 4.2.1 連續型輸入 ... 154

 4.2.2 最大似然解 ... 156

 4.2.3 離散特征 ... 158

 4.2.4 指數族分布 ... 158

4.3 概率判別模型 ... 159

 4.3.1 固定基函數 ... 159

 4.3.2 邏輯斯諦回歸 ... 160

 4.3.3 疊代重加權最小二乘法 ... 161

 4.3.4 多分類邏輯斯諦回歸 ... 163

 4.3.5 probit 回歸 ... 164

 4.3.6 規範連接函數 ... 166

4.4 拉普拉斯近似 ... 167

 4.4.1 模型比較與貝葉斯信息準則 ... 169

4.5 貝葉斯邏輯斯諦回歸 ... 170

 4.5.1 拉普拉斯近似 ... 170

 4.5.2 預測分布 ... 171

習題 ... 172

第 5 章 神經網絡 ... 177

5.1 前饋網絡函數 ... 178

 5.1.1 權重空間對稱性 ... 182

5.2 網絡訓練 ... 183

 5.2.1 參數優化 ... 186

 5.2.2 局部二次近似 ... 187

 5.2.3 利用梯度信息 ... 188

 5.2.4 梯度下降優化 ... 189

5.3 誤差反向傳播 ... 190

 5.3.1 誤差函數導數計算 ... 190

 5.3.2 簡單例子 ... 193

 5.3.3 反向傳播的效率 ... 194

 5.3.4 雅可比矩陣 ... 195

5.4 黑塞矩陣 ... 196

 5.4.1 對角近似 ... 197

 5.4.2 外積近似 ... 198

 5.4.3 黑塞矩陣逆矩陣 ... 198

 5.4.4 有限差分 ... 199

 5.4.5 黑塞矩陣的精確計算 ... 200

 5.4.6 黑塞矩陣的快速乘法 ... 200

5.5 神經網絡中的正則化 ... 202

 5.5.1 相容高斯先驗 ... 203

 5.5.2 提前停止 ... 205

 5.5.3 不變性 ... 206

 5.5.4 切向傳播 ... 207

 5.5.5 訓練變換數據 ... 209

 5.5.6 卷積神經網絡 ... 210

 5.5.7 軟權重共享 ... 212

5.6 混合密度網絡 ... 214

5.7 貝葉斯神經網絡 ... 218

 5.7.1 後驗參數分布 ... 219

 5.7.2 超參數優化 ... 220

 5.7.3 貝葉斯神經網絡分類 ... 222

習題 ... 224

第 6 章 核方法 ... 229

6.1 對偶表示 ... 230

6.2 構建核函數 ... 232

6.3 徑向基函數網絡 ... 236

 6.3.1 Nadaraya-Watson 模型 ... 238

6.4 高斯過程 ... 239

 6.4.1 線性回歸的再探討 ... 240

 6.4.2 用於回歸問題的高斯過程 ... 241

 6.4.3 學習超參數 ... 245

 6.4.4 自動相關性確定 ... 246

 6.4.5 用於分類問題的高斯過程 ... 247

 6.4.6 拉普拉斯近似 ... 248

 6.4.7 連接到神經網絡 ... 251

習題 ... 252

第 7 章 稀疏核機 ... 255

7.1 最大邊緣分類器 ... 256

 7.1.1 重疊類分布 ... 260

 7.1.2 SVM 與邏輯斯諦回歸的關系 ... 264

 7.1.3 多類 SVM ... 265

 7.1.4 用於回歸問題的支持向量機 ... 266

 7.1.5 計算學習理論 ... 270

7.2 相關向量機 ... 271

 7.2.1 用於回歸問題的 RVM ... 271

 7.2.2 稀疏性分析 ... 274

 7.2.3 用於分類問題的 RVM ... 278

習題 ... 280

第 8 章 圖模型 ... 283

8.1 貝葉斯網絡 ... 284

 8.1.1 示例:多項式回歸 ... 286

 8.1.2 生成式模型 ... 287

 8.1.3 離散變量 ... 289

 8.1.4 線性高斯模型 ... 291

8.2 條件獨立 ... 293

 8.2.1 三個圖模型的例子 ... 294

 8.2.2 d 分離 ... 298

8.3 馬爾可夫隨機場 ... 302

 8.3.1 條件獨立性 ... 302

 8.3.2 因子分解性質 ... 303

 8.3.3 示例:圖像去噪 ... 305

 8.3.4 無向圖與有向圖的關系 ... 307

8.4 概率圖模型中的推斷 ... 310

 8.4.1 鏈式推斷 ... 310

 8.4.2 樹 ... 313

 8.4.3 因子圖 ... 314

 8.4.4 和積算法 ... 317

 8.4.5 最大和算法 ... 323

 8.4.6 一般圖中的精確推斷 ... 327

 8.4.7 循環置信傳播 ... 328

 8.4.8 學習圖結構 ... 329

習題 ... 329

第 9 章 混合模型和 EM 算法 ... 333

9.1 K 均值算法 ... 334

 9.1.1 圖像分割與壓縮 ... 337

9.2 高斯混合模型 ... 339

 9.2.1 最大似然 ... 341

 9.2.2 用於高斯混合模型的 EM 算法 ... 342

9.3 另一視角下的 EM 算法 ... 345

 9.3.1 再探高斯混合模型 ... 347

 9.3.2 EM 算法與 K 均值算法的關系 ... 349

 9.3.3 伯努利分布混合模型 ... 350

 9.3.4 貝葉斯線性回歸中的 EM 算法 ... 353

9.4 一般形式的 EM 算法 ... 354

習題 ... 358

第 10 章 近似推斷 ... 363

10.1 變分推斷 ... 364

 10.1.1 分解分布 ... 366

 10.1.2 分解近似的性質 ... 367

 10.1.3 示例:一元高斯分布 ... 370

 10.1.4 模型對比 ... 373

10.2 變分高斯混合模型 ... 373

 10.2.1 變分分布 ... 374

 10.2.2 變分下界 ... 379

 10.2.3 預測密度 ... 380

 10.2.4 確定分量的數量 ... 380

 10.2.5 誘導因子分解 ... 381

10.3 變分線性回歸 ... 382

 10.3.1 變分分布 ... 383

 10.3.2 預測分布 ... 384

 10.3.3 下界 ... 385

10.4 指數族分布 ... 386

 10.4.1 變分消息傳遞 ... 387

10.5 局部變分法 ... 388

10.6 變分邏輯斯諦回歸 ... 392

 10.6.1 變分後驗分布 ... 392

 10.6.2 優化變分參數 ... 394

 10.6.3 超參數的推斷 ... 396

10.7 期望傳播 ... 398

 10.7.1 示例:雜波問題 ... 402

 10.7.2 圖結構上的期望傳播 ... 405

習題 ... 408

第 11 章 采樣方法 ... 413

11.1 基本采樣方法 ... 415

 11.1.1 標準分布 ... 415

 11.1.2 拒絕采樣 ... 417

 11.1.3 自適應拒絕采樣 ... 418

 11.1.4 重要性采樣 ... 419

 11.1.5 采樣 - 重要性 - 重采樣 ... 421

 11.1.6 采樣與 EM 算法 ... 422

11.2 馬爾可夫鏈蒙特卡洛采樣 ... 423

 11.2.1 馬爾可夫鏈 ... 425

 11.2.2 Metropolis-Hastings 算法 ... 426

11.3 吉布斯采樣 ... 427

11.4 切片采樣 ... 430

11.5 混合蒙特卡洛算法 ... 431

 11.5.1 動力系統 ... 432

 11.5.2 混合蒙特卡洛算法的應用 ... 434

11.6 配分函數估計 ... 436

習題 ... 437

第 12 章 連續潛變量 ... 441

12.1 主成分分析 ... 442

 12.1.1 最大方差表述 ... 443

 12.1.2 最小誤差表述 ... 444

 12.1.3 PCA 的應用 ... 446

 12.1.4 高維數據的 PCA ... 449

12.2 概率 PCA ... 449

 12.2.1 最大似然 PCA ... 452

 12.2.2 用於 PCA 的 EM 算法 ... 455

 12.2.3 貝葉斯 PCA ... 457

 12.2.4 因子分析 ... 460

12.3 核 PCA ... 461

12.4 非線性潛變量模型 ... 464

 12.4.1 獨立成分分析 ... 465

 12.4.2 自關聯神經網絡 ... 466

 12.4.3 對非線性流形建模 ... 467

習題 ... 471

第 13 章 序列數據 ... 475

13.1 馬爾可夫模型 ... 476

13.2 隱馬爾可夫模型 ... 479

 13.2.1 用於 HMM 的最大似然法 ... 483

 13.2.2 前後向算法 ... 485

 13.2.3 用於 HMM 的和積算法 ... 490

 13.2.4 縮放因子 ... 492

 13.2.5 維特比算法 ... 493

 13.2.6 隱馬爾可夫模型的擴展 ... 495

13.3 線性動態系統 ... 498

 13.3.1 LDS 的推斷問題 ... 500

 13.3.2 LDS 的學習問題 ... 504

 13.3.3 LDS 的拓展 ... 505

 13.3.4 粒子濾波器 ... 506

習題 ... 508

第 14 章 模型組合 ... 513

14.1 貝葉斯模型平均法 ... 514

14.2 “委員會” ... 515

14.3 提升法 ... 516

 14.3.1 最小化指數誤差 ... 518

 14.3.2 提升法中的誤差函數 ... 519

14.4 樹狀模型 ... 521

14.5 條件混合模型 ... 523

 14.5.1 線性回歸混合模型 ... 523

 14.5.2 邏輯斯諦回歸混合模型 ... 526

 14.5.3 混合專家模型 ... 528

習題 ... 529

附錄 A 數據集 ... 531

A.1 手寫數字數據集 ... 531

A.2 油流數據集 ... 532

A.3 老忠實泉數據集 ... 534

A.4 合成數據集 ... 535

附錄 B 概率分布 ... 537

B.1 伯努利分布 ... 537

B.2 β 分布 ... 538

B.3 二項分布 ... 538

B.4 狄利克雷分布 ... 539

B.5 伽馬分布 ... 540

B.6 高斯分布 ... 540

B.7 高斯 - 伽馬分布 ... 542

B.8 高斯 - 威沙特分布 ... 542

B.9 多項分布 ... 542

B.10 正態分布 ... 543

B.11 學生 t 分布 ... 543

B.12 均勻分布 ... 544

B.13 馮·米塞斯分布 ... 544

B.14 威沙特分布 ... 544

附錄 C 矩陣性質 ... 547

C.1 矩陣的基本恒等式 ... 547

C.2 跡與行列式 ... 548

C.3 矩陣求導 ... 549

C.4 特征方程 ... 550

附錄 D 變分法 ... 553

附錄 E 拉格朗日乘子法 ... 557

參考資料 ... 561

索引 ... 583