機器學習:貝葉斯和優化方法, 2/e (Machine Learning : A Bayesian and Optimization Perspective, 2/e)

Sergios Theodoridis

買這商品的人也買了...

商品描述

本書對所有重要的機器學習方法和新近研究趨勢進行了深入探索,
新版重寫了關於神經網絡和深度學習的章節,
並擴展了關於貝葉斯學習的內容。
書中首先討論基礎知識,包括均方、最小二乘和最大似然方法,
以及嶺回歸、貝葉斯決策理論分類、邏輯回歸和決策樹。
然後介紹較新的技術,包括稀疏建模方法、再生核希爾伯特空間和支持向量機中的學習、
關注EM算法的貝葉斯推理及其變分近似推理、蒙特卡羅方法、關注貝葉斯網絡的概率圖模型、隱馬爾可夫模型和粒子濾波。
此外,書中還討論了降維、隱變量建模、統計參數估計、維納和卡爾曼濾波、凸優化等技術。
本書適合該領域的科研人員和工程師閱讀,也適合學習模式識別、
統計/自適應信號處理和深度學習等課程的學生參考。

目錄大綱

譯者序
前言
致謝
作者簡介
符號說明
第1章 引言1
1.1 歷史背景1
1.2 人工智能與機器學習1
1.3 算法能學習數據中隱藏的東西3
1.4 機器學習典型應用4
1.4.1 語音識別4
1.4.2 計算機視覺4
1.4.3 多模態數據5
1.4.4 自然語言處理5
1.4.5 機器人5
1.4.6 自動駕駛5
1.4.7 未來的挑戰5
1.5 機器學習的主要方向6
1.5.1 監督學習6
1.6 無監督和半監督學習8
1.7 本書結構和路線圖9
參考文獻11

第2章 概率和隨機過程13
2.1 引言13
2.2 概率和隨機變量13
2.2.1 概率13
2.2.2 離散隨機變量14
2.2.3 連續隨機變量16
2.2.4 均值和方差16
2.2.5 隨機變量變換18
2.3 分佈示例19
2.3.1 離散變量19
2.3.2 連續變量21
2.4 隨機過程27
2.4.1 一階和二階統計量28
2.4.2 平穩性和遍歷性29
2.4.3 功率譜密度31
2.4.4 自回歸模型35
2.5 信息論38
2.5.1 離散隨機變量38
2.5.2 連續隨機變量41
2.6 隨機收斂42
2.6.1 處處收斂43
2.6.2 幾乎處處收斂43
2.6.3 均方意義下的收斂43
2.6.4 依概率收斂43
2.6.5 依分佈收斂43
習題44
參考文獻45

第3章 參數化建模學習:概念和方向46
3.1 引言46
3.2 參數估計:確定性觀點46
3.3 線性回歸49
3.4 分類52
3.4.1 生成和判別學習54
3.5 有偏估計與無偏估計55
3.5.1 選擇有偏還是無偏估計56
3.6 克拉美-羅下界57
3.7 充分統計量60
3.8 正則化61
3.8.1 逆問題:病態和過擬合63
3.9 偏差-方差困境65
3.9.1 均方誤差估計65
3.9.2 偏差-方差權衡66
3.10 似然法69
3.10.1 線性回歸:非白高斯噪聲實例71
3.11 貝葉斯推斷71
3.11.1 後驗概率估計方法74
3.12 維數災難75
3.13 驗證76
3.13.1 交叉驗證77
3.14 期望損失函數和經驗風險函數78
3.14.1 可學習性79
3.15 非參數建模和非參數估計79
習題80
參考文獻83

第4章 均方誤差線性估計85
4.1 引言85
4.2 均方誤差線性估計:正規方程85
4.2.1 代價函數曲面86
4.3 幾何觀點:正交性條件87
4.4 擴展到復值變量89
4.4.1 寬線性複值估計90
4.4.2 复值變量優化:沃廷格微積分93
4.5 線性濾波94
4.6 均方誤差線性濾波:頻率域觀點96
4.6.1 反捲積:圖像去模糊96
4.7 一些典型應用98
4.7.1 干擾抵消98
4.7.2 系統辨識99
4.7.3 反捲積:信道均衡100
4.8 算法方面:萊文森算法和格-梯算法105
4.8.1 前向後向均方誤差預測106
4.8.2 格-梯方案109
4.9 線性模型均方誤差估計111
4.9.1 高斯-馬爾可夫定理113
4.9.2 約束線性估計:波束成形實例115
4.10 時變統計:卡爾曼濾波118
習題123
參考文獻125

第5章 隨機梯度下降:LMS算法族127
5.1 引言127
5.2 最速下降法127
5.3 應用於均方誤差代價函數130
5.3.1 時變步長135
5.3.2 复值情形135
5.4 隨機逼近136
5.4.1 在均方誤差線性估計中的應用138
5.5 最小均方自適應算法139
5.5.1 平穩環境中LMS算法的收斂和穩態性能140
5.5.2 累積損失上界144
5.6 仿射投影算法145
5.6.1 APA的幾何解釋147
5.6.2 正交投影148
5.6.3 歸一化LMS算法149
5.7 复值情形150
5.7.1 寬線性LMS151
5.7.2 寬線性APA151
5.8 LMS同族算法152
5.8.1 符號誤差LMS152
5.8.2 最小均四次方算法152
5.8.3 變換域LMS153
5.9 仿真示例155
5.10 自適應判決反饋均衡157
5.11 線性約束LMS159
5.12 非平穩環境中LMS算法的跟踪性能160
5.13 分佈式學習:分佈式LMS162
5.13.1 協同策略163
5.13.2 擴散LMS164
5.13.3 收斂和穩態性能:一些重點169
5.13.4 基於共識的分佈式方法171
5.14 實例研究:目標定位172
5.15 一些結論:共識矩陣174
習題174
參考文獻177

第6章 最小二乘算法族181
6.1 引言181
6.2 最小二乘線性回歸:幾何視角181
6.3 最小二乘估計的統計特性183
6.3.1 LS估計是無偏估計183
6.3.2 LS估計的協方差矩陣183
6.3.3 白噪聲下LS估計是線性無偏估計184
6.3.4 高斯白噪聲下LS估計達到克拉美-羅界185
6.3.5 LS估計的漸近分佈185
6.4 正交化輸入矩陣的列空間:SVD方法186
6.4.1 偽逆矩陣和SVD187
6.5 嶺回歸:幾何觀點189
6.5.1 主成分回歸190
6.6 遞歸最小二乘算法191
6.6.1 時間迭代計算192
6.6.2 參數的時間更新192
6.7 牛頓迭代極小化方法194
6.7.1 RLS和牛頓方法195
6.8 RLS的穩態性能196
6.9 复值數據:寬線性RLS198
6.10 LS方法的計算199
6.10.1 喬列斯基分解199
6.10.2 QR分解199
6.10.3 快速RLS版本200
6.11 坐標下降法和循環坐標下降法201
6.12 仿真示例202
6.13 總體最小二乘法205
6.13.1 總體最小二乘法的幾何解釋208
習題210
參考文獻212

第7章 分類:經典方法導覽215
7.1 引言215
7.2 貝葉斯分類215
7.2.1 貝葉斯分類器最小化分類誤差216
7.2.2 平均風險217
7.3 決策(超)曲面219
7.3.1 高斯分佈實例220
7.4 樸素貝葉斯分類器224
7.5 最近鄰法則225
7.6 對數機率回歸226
7.7 費舍爾線性判別230
7.7.1 散佈矩陣230
7.7.2 費舍爾判別:兩類情況232
7.7.3 費舍爾判別:多類情況234
7.8 分類樹235
7.9 分類器組合238
7.9.1 無免費午餐原理238
7.9.2 一些實驗比較239
7.9.3 分類器組合方案239
7.10 提升方法241
7.10.1 AdaBoost算法241
7.10.2 對數損失函數244
7.11 提升樹246
習題247
參考文獻250

第8章 參數學習:凸分析方法252
8.1 引言252
8.2 凸集和凸函數252
8.2.1 凸集252
8.2.2 凸函數254
8.3 凸集投影法256
8.3.1 投影特性258
8.4 凸集投影基本定理261
8.5 並行POCS263
8.6 從凸集到參數估計和機器學習264
8.6.1 回歸264
8.6.2 分類266
8.7 無窮多封閉凸集:在線學習實例267
8.7.1 APSM的收斂性269
8.8 約束學習272
8.9 分佈式APSM273
8.10 優化非光滑凸代價函數275
8.10.1 次梯度和次微分275
8.10.2 最小化非光滑連續凸損失函數:批量學習實例277
8.10.3 凸優化在線學習281
8.11 悔過分析284
8.11.1 次梯度算法的悔過分析285
8.12 在線學習和大數據應用:討論286
8.12.1 近似、估計和優化誤差287
8.12.2 批處理與在線學習288
8.13 近端算子290
8.13.1 近端算子的性質293
8.13.2 近端最小化293
8.14 近端分裂優化方法295
8.14.1 近端前向-後向分裂算子297
8.14.2 交替方向乘子法297
8.14.3 鏡像下降算法298
8.15 分佈式優化:一些要點299
習題300
參考文獻303

第9章 稀疏感知學習:概念和理論基礎307
9.1 引言307
9.2 尋找範數307
9.3 最小收縮和選擇算子309
9.4 稀疏信號表示313
9.5 尋找最稀疏解315
9.5.1 2範數極小值316
9.5.2 0範數極小值317
9.5.3 1範數極小值317
9.5.4 1範數極小值的性質318
9.5.5 幾何解釋319
9.6 0極小值的唯一性321
9.6.1 互相干322
9.7 0和1極小值等價的充分條件324
9.7.1 自相干數隱含的條件324
9.7.2 約束等距性324
9.8 基於噪聲測量的魯棒稀疏信號恢復327
9.9 壓縮感知:隨機性的榮光328
9.9.1 壓縮感知328
9.9.2 降維和穩定嵌入329
9.9.3 欠奈奎斯特採樣:模擬信息轉換330
9.10 實例研究:圖像降噪333
習題335
參考文獻337

第10章 稀疏感知學習:算法和應用341
10.1 引言341
10.2 稀疏提升算法341
10.2.1 貪心算法341
10.2.2 迭代收縮/閾值算法345
10.2.3 關於算法選擇的一些實用提示351
10.3 稀疏感知方法的變化354
10.4 在線稀疏提升算法360
10.4.1 LASSO:漸近性能361
10.4.2 自適應加權範數LASSO362
10.4.3 自適應CoSaMP算法363
10.4.4 稀疏自適應投影次梯度方法364
10.5 稀疏分析學習模型368
10.5.1 相干字典表示的稀疏信號的壓縮感知370
10.5.2 共稀疏性371
10.6 實例研究:時頻分析373
10.6.1 伽柏變換和框架373
10.6.2 時頻分辨率374
10.6.3 伽柏框架374
10.6.4 蝙蝠發出的迴聲定位信號的時頻分析375
習題377
參考文獻379

第11章 再生核希爾伯特空間中的學習383
11.1 引言383
11.2 廣義線性模型383
11.3 沃爾泰拉模型、維納模型和哈默斯坦模型384
11.4 科弗定理:線性二分空間的容量386
11.5 再生核希爾伯特空間388
11.5.1 一些性質和理論要點389
11.5.2 核函數示例390
11.6 表示定理395
11.6.1 半參表示定理396
11.6.2 非參建模:討論397
11.7 核嶺回歸397
11.8 支持向量回歸399
11.8.1 線性不敏感回歸400
11.9 核嶺回歸回顧405
11.10 邊距分類:支持向量機406
11.10.1 線性可分類別:邊距分類器407
11.10.2 不可分類別410
11.10.3 SVM的性能及其應用414
11.10.4 超參數的選擇414
11.10.5 推廣為多類分類器414
11.11 計算方面的考慮415
11.12 隨機傅里葉特徵416
11.12.1 RKHS中的在線和分佈式學習418
11.13 多核學習418
11.14 非參稀疏感知學習:可加模型420
11.15 實例研究:作者身份認證422
習題424
參考文獻426

第12章 貝葉斯學習:推斷和EM算法431
12.1 引言431
12.2 回歸:貝葉斯觀點431
12.2.1 極大似然估計432
12.2.2 MAP估計432
12.2.3 貝葉斯方法433
12.3 證據函數和奧卡姆剃刀法則438
12.3.1 拉普拉斯近似和證據函數440
12.4 潛變量和EM算法443
12.4.1 期望算法444
12.5 線性回歸和EM算法445
12.6 高斯混合模型447
12.6.1 高斯混合模型與聚類451
12.7 EM算法:下界化視角453
12.8 指數族概率分佈456
12.8.1 指數族和熵法460
12.9 學習模型組合:概率觀點461
12.9.1 混合線性回歸模型461
12.9.2 混合對率回歸模型465
習題466
參考文獻469

第13章 貝葉斯學習:近似推斷和非參模型471
13.1 引言471
13.2 變分近似貝葉斯學習471
13.2.1 平均場近似472
13.2.2 指數族概率分佈實例475
13.3 線性回歸的變分貝葉斯方法476
13.3.1 下界的計算480
13.4 變分貝葉斯方法應用於高斯混合模型481
13.5 當貝葉斯推斷遇到稀疏性484
13.6 稀疏貝葉斯學習486
13.6.1 釘板方法488
13.7 關聯向量機框架489
13.7.1 用對率回歸模型進行分類489
13.8 凸對偶與變分界492
13.9 稀疏感知回歸:變分界貝葉斯方法495
13.9.1 稀疏感知學習:一些結論498
13.10 期望傳播499
13.10.1 最小化KL散度500
13.10.2 期望傳播算法500
13.11 非參貝葉斯建模502
13.11.1 中國餐館過程503
13.11.2 狄利克雷過程503
13.11.3 DP的截棍構造507
13.11.4 狄利克雷過程混合建模508
13.11.5 推理509
13.11.6 印度自助餐過程511
13.12 高斯過程517
13.12.1 協方差函數與核518
13.12.2 回歸519
13.12.3 分類521
13.13 實例研究:高光譜圖像分離522
13.13.1 層級貝葉斯建模523
13.13.2 實驗結果524
習題525
參考文獻528

第14章 蒙特卡羅方法532
14.1 引言532
14.2 蒙特卡羅方法:主要思想532
14.2.1 隨機數發生533
14.3 基於函數變換的隨機抽樣534
14.4 拒絕抽樣538
14.5 重要性抽樣540
14.6 蒙特卡羅方法與EM算法542
14.7 馬爾可夫鏈蒙特卡羅法542
14.7.1 遍歷馬爾可夫鏈544
14.8 梅特羅波利斯方法548
14.8.1 收斂問題550
14.9 吉布斯抽樣552
14.10 尋找更有效的方法:一些討論554
14.10.1 變分推斷或蒙特卡羅方法555
14.11 實例研究:變點檢測555
習題557
參考文獻559

第15章 概率圖模型:第一部分561
15.1 引言561
15.2 圖模型的必要性561
15.3 貝葉斯網絡與馬爾可夫條件563
15.3.1 圖:基本定義564
15.3.2 因果關係的一些提示566
15.3.3 d分離568
15.3.4 S形貝葉斯網絡570
15.3.5 線性高斯模型571
15.3.6 多因網絡572
15.3.7 I映射、可靠性、忠實性和完備性572
15.4 無向圖模型573
15.4.1 馬爾可夫隨機場中的獨立性和I映射574
15.4.2 伊辛模型及其變體575
15.4.3 條件隨機場577
15.5 因子圖578
15.5.1 糾錯碼的圖模型579
15.6 有向圖端正化580
15.7 精確推理法:消息傳遞算法581
15.7.1 鏈精確推理581
15.7.2 樹精確推理584
15.7.3 和積算法585
15.7.4 積與和算法589
習題594
參考文獻595

第16章 概率圖模型:第二部分597
16.1 引言597
16.2 三角剖分圖與聯合樹597
16.2.1 構造連接樹599
16.2.2 聯合樹中的消息傳遞601
16.3 近似推理方法603
16.3.1 變分法:局部近似603
16.3.2 分塊變分近似法607
16.3.3 環路信念傳播609
16.4 動態圖模型612
16.5 隱馬爾可夫模型613
16.5.1 推理615
16.5.2 HMM參數學習619
16.5.3 判別學習621
16.6 超越HMM:討論622
16.6.1 因子隱馬爾可夫模型622
16.6.2 時變動態貝葉斯網絡624
16.7 圖模型學習625
16.7.1 參數估計625
16.7.2 結構學習627
習題628
參考文獻629

第17章 粒子濾波633
17.1 引言633
17.2 順序重要性抽樣633
17.2.1 重要性抽樣回顧633
17.2.2 重抽樣634
17.2.3 順序抽樣636
17.3 卡爾曼和粒子濾波638
17.3.1 卡爾曼濾波:貝葉斯觀點639
17.4 粒子濾波640
17.4.1 退化645
17.4.2 通用粒子濾波645
17.4.3 輔助粒子濾波647
習題652
參考文獻654

第18章 神經網絡和深度學習656
18.1 引言656
18.2 感知機657
18.3 前饋多層神經網絡660
18.3.1 全連接網絡663
18.4 逆傳播算法664
18.4.1 代價函數的非凸性665
18.4.2 梯度下降逆傳播方法666
18.4.3 基本梯度下降法的變體672
18.4.4 超越梯度下降原理679
18.5 代價函數的選擇680
18.6 梯度消失和梯度爆炸682
18.6.1 整流線性單元683
18.7 網絡正則化684
18.7.1 dropout686
18.8 設計深度神經網絡:總結688
18.9 前饋神經網絡的普遍近似特性689
18.10 神經網絡:貝葉斯風格690
18.11 淺層結構與深層結構691
18.11.1 深層結構的力量691
18.12 卷積神經網絡695
18.12.1 對卷積的需求695
18.12.2 體上的捲積701
18.12.3 全卷積結構704
18.12.4 CNN:尾聲706
18.13 遞歸神經網絡709
18.13.1 時間逆傳播710
18.13.2 注意力和記憶713
18.14 對抗示例715
18.14.1 對抗訓練716
18.15 深度生成模型717
18.15.1 受限玻爾茲曼機718
18.15.2 預訓練深度前饋網絡719
18.15.3 深度信念網絡720
18.15.4 自編碼器722
18.15.5 生成對抗網絡723
18.15.6 變分自編碼器729
18.16 膠囊網絡731
18.16.1 訓練734
18.17 深度神經網絡:最後的話735
18.17.1 遷移學習735
18.17.2 多任務學習736
18.17.3 幾何深度學習737
18.17.4 開放問題738
18.18 實例研究:神經網絡機器翻譯738
習題743
參考文獻746

第19章 降維與潛變量模型755
19.1 引言755
19.2 本徵維數755
19.3 主成分分析756
19.3.1 PCA、SVD以及低秩矩陣分解757
19.3.2 最小誤差解釋758
19.3.3 PCA和信息檢索759
19.3.4 PCA和特徵生成的正交性759
19.3.5 潛變量760
19.4 典型相關分析764
19.4.1 CCA同類方法767
19.5 獨立成分分析768
19.5.1 ICA和高斯函數769
19.5.2 ICA和高階累積量769
19.5.3 非高斯性和獨立成分771
19.5.4 基於互信息的ICA771
19.5.5 其他ICA方法774
19.5.6 雞尾酒會問題774
19.6 字典學習:kSVD算法777
19.6.1 為什麼命名為kSVD779
19.6.2 字典學習和字典可辨識性779
19.7 非負矩陣分解782
19.8 低維模型學習:概率視角782
19.8.1 因子分析783
19.8.2 概率PCA784
19.8.3 混合因子分析:壓縮感知的貝葉斯觀點786
19.9 非線性降維789
19.9.1 核PCA方法789
19.9.2 基於圖的方法790
19.10 低秩矩陣分解:一種稀疏建模的方法797
19.10.1 矩陣補全797
19.10.2 魯棒PCA799
19.10.3 矩陣補全和魯棒PCA的應用800
19.11 實例研究:fMRI數據分析802
習題804
參考文獻806
索引812
在線章節
 第8章附錄
第10章附錄
第12章附錄
附錄A
附錄B
附錄C
 請訪問原書配套網站下載,詳見前言中的說明。 ——編輯註