強化學習
張偉楠,李帥,溫穎,蘭旭光,楊森
- 出版商: 清華大學
- 出版日期: 2026-05-01
- 售價: $594
- 語言: 簡體中文
- 頁數: 420
- ISBN: 730271469X
- ISBN-13: 9787302714699
-
相關分類:
Reinforcement
下單後立即進貨 (約4週~6週)
商品描述
"本書是教育部人工智能領域“ 101計劃”“強化學習”課程配套教材。 本書采用“基礎理論—進階方法—前沿拓展”的三段式知識體系,幫助讀者由淺入深地掌握強化學習的核心思想與方法論。全書分為三部分:第一部分強化學習基礎(第 1~7章),從學科概覽與發展脈絡出發,介紹馬爾可夫決策過程( MDP)的理論基礎,重點講解表格型強化學習方法,通過網格世界、懸崖行走等經典案例,幫助讀者深入理解強化學習算法的核心原理;第二部分強化學習進階(第 8~13章),聚焦深度強化學習的範式遷移與方法創新,從線性近似過渡到深度神經網絡的價值函數逼近,對比分析 DQN、PPO、 SAC等主流深度強化學習算法架構,並剖析基於模型的方法在環境建模方面的優勢,特別註重算法原理的深入剖析,使讀者能夠掌握深度強化學習的核心思想;第三部分強化學習前沿(第 14~20章),拓展學科交叉應用與前沿研究方向,涵蓋模仿學習、離線強化學習等數據驅動範式,詳解人類反饋強化學習( RLHF)的對齊技術,並探索量子計算、擴散模型等新興交叉領域。 全書采用分層知識體系,適配不同教學需求;提供學科全景視角,包括歷史脈絡梳理、學科發展樹狀圖和未解問題討論,幫助讀者建立完整的知識框架;立足理論,著眼實踐,全書關鍵算法的關鍵模塊均配備代碼實例演示,方便學生親自試驗,在實操中增強對算法原理的理解;註重教學友好性,每章包含本章小結、關鍵公式推導和習題,方便教師授課與學生自學。 本書是一本面向高等學校本科生的強化學習系統性教材,適合作為相關專業的“強化學習”課程的教材使用,也可供相關領域的研究人員參考。 "
目錄大綱
目錄
第 1章強化學習概述 .....................................................1
1.1決策型人工智能 .................................................. 1
1.2強化學習是什麼 .................................................. 2
1.3強化學習的思維方式 ........................................... 4
1.4強化學習的基本方法概覽..................................... 5
1.4.1環境模型 ................................................. 5
1.4.2價值函數和策略 ....................................... 6
1.4.3表格式強化學習和參數化強化學習............. 7
1.5強化學習前沿概覽............................................... 8
1.6強化學習應用概覽............................................. 12
1.7本章小結 .......................................................... 13
1.8習題................................................................. 14
第 2章強化學習的歷史沿革 .........................................15
2.1強化學習的早期發展 ......................................... 15
2.2強化學習的關鍵技術發展................................... 23
2.3本章小結 .......................................................... 34
2.4習題................................................................. 34
第 3章在線學習與探索利用平衡 ..................................39
3.1在線學習的學習目標 ......................................... 39
3.2先探索後利用算法............................................. 40
3.3 χ-貪婪算法 ....................................................... 43
3.4置信上界算法 ................................................... 46
3.4.1 UCB1算法 ............................................ 46
3.4.2 UCB1算法的優化變種 .......................... 48
3.4.3 UCB算法的優勢與局限性 ...................... 49
3.5湯姆森采樣算法 ................................................ 49
3.6在線學習的問題下界 ......................................... 53
3.6.1問題獨立型下界 ..................................... 54
3.6.2問題依賴型下界 ..................................... 56
3.7本章小結 ............................................................................................... 57
3.8習題...................................................................................................... 58
第 4章馬爾可夫決策過程 .................................................................................59
4.1馬爾可夫過程 ........................................................................................ 59
4.1.1馬爾可夫性質.............................................................................. 60
4.1.2馬爾可夫過程的定義.................................................................... 61
4.2馬爾可夫決策過程.................................................................................. 62
4.3策略...................................................................................................... 64
4.4價值函數 ............................................................................................... 65
4.5占用度量 ............................................................................................... 68
4.6本章小結 ............................................................................................... 74
4.7習題...................................................................................................... 74
第 5章動態規劃...............................................................................................76
5.1貝爾曼方程............................................................................................ 77
5.1.1貝爾曼期望方程 .......................................................................... 77
5.1.2貝爾曼最優方程 .......................................................................... 78
5.2策略評估 ............................................................................................... 79
5.3策略提升定理 ........................................................................................ 81
5.4策略疊代 ............................................................................................... 82
5.5價值疊代 ............................................................................................... 85
5.6不動點定理............................................................................................ 87
5.7本章小結 ............................................................................................... 89
5.8習題...................................................................................................... 90
第 6章無模型策略評估.....................................................................................91
6.1無模型強化學習 ..................................................................................... 91
6.1.1均值估計 .................................................................................... 91
6.1.2無模型策略評估的意義 ................................................................ 92
6.2蒙特卡洛方法 ........................................................................................ 92
6.2.1狀態價值函數的蒙特卡洛估計 ...................................................... 93
6.2.2動作價值函數的蒙特卡洛估計 ...................................................... 94
6.3時序差分方法 ........................................................................................ 95
6.4重要性采樣............................................................................................ 98
6.5本章小結 ............................................................................................. 100
6.6習題.................................................................................................... 101
第 7章無模型策略學習...................................................................................102
7.1 無模型策略學習概述 ............................................................................ 102 Sarsa .................................................................................................. 103
7.2
7.2.1 Sarsa:使用單步采樣的價值函數更新 ......................................... 103
7.2.2懸崖行走環境下的實現細節........................................................ 105
7.2.3 Sarsa的常見變體:期望 Sarsa................................................... 106
7.3 Q-學習 ................................................................................................ 106
7.3.1 Q-學習:使用單步最優值的價值函數更新 ................................... 106
7.3.2懸崖行走環境下的實現細節........................................................ 108
7.3.3 Q-學習的常用改進:雙 Q-學習 .................................................. 110
7.4 多步自助法.......................................................................................... 111
7.4.1多步時序差分............................................................................ 111
7.4.2多步 Sarsa................................................................................ 112
7.4.3多步異策略方法中的重要性采樣 ................................................. 114
7.4.4多步樹回溯 ............................................................................... 115
7.4.5 Q(ξ) ........................................................................................ 115
7.5 TD(η)................................................................................................. 117
7.5.1 η-回報...................................................................................... 117
7.5.2資格跡 .................................................................................... 117
7.5.3 Sarsa(η) ................................................................................... 119
7.6 本章小結 ............................................................................................. 120
7.7 習題.................................................................................................... 120
第 8章基於規劃的強化學習 ............................................................................122
8.1 規劃與搜索.......................................................................................... 123
8.2 規劃與學習.......................................................................................... 125
8.2.1從 Q-學習到 Q規劃 .................................................................. 125
8.2.2價值函數的采樣更新與期望更新 ................................................. 125
8.2.3 Dyna-Q:規劃與學習的融合 ...................................................... 126
8.2.4 Dyna-Q+:模型的修正 .............................................................. 129
8.2.5概率環境中的模型學習 .............................................................. 131
8.3 決策時規劃方法 ................................................................................... 132
8.3.1啟發式搜索 ............................................................................... 133
8.3.2預演算法 .................................................................................. 134
8.4 蒙特卡洛樹搜索 ................................................................................... 134
8.4.1蒙特卡洛樹搜索的算法介紹........................................................ 134
8.4.2以圍棋為例:蒙特卡洛樹搜索的應用 .......................................... 137
8.5本章小結 ............................................................................................. 138
8.6習題.................................................................................................... 139
第 9章部分可觀測的馬爾可夫決策過程 ...........................................................140
9.1部分可觀測的馬爾可夫決策過程概述 ..................................................... 140
9.2不確定性下規劃 ................................................................................... 141
9.2.1有限空間下的部分可觀測的馬爾可夫決策過程離線算法................ 143
9.2.2在線部分可觀測的馬爾可夫決策過程算法.................................... 145
9.3局部最優解.......................................................................................... 146
9.4卡爾曼濾波.......................................................................................... 147
9.4.1線性卡爾曼濾波 ........................................................................ 147
9.4.2拓展卡爾曼濾波 ........................................................................ 150
9.5線性二次控制 ...................................................................................... 151
9.6分離原理 ............................................................................................. 153
9.7本章小結 ............................................................................................. 155
9.8習題.................................................................................................... 156
第 10章參數化近似方法.................................................................................157
10.1函數逼近思想..................................................................................... 157
10.2價值函數近似方法 .............................................................................. 158
10.2.1線性近似方法 ........................................................................ 159
10.2.2非線性近似方法 ..................................................................... 165
10.3策略梯度 ........................................................................................... 166
10.3.1策略梯度定理 ........................................................................ 167
10.3.2 REINFORCE算法 ................................................................ 170
10.4 Actor-Critic算法 ............................................................................... 172
10.5本章小結 ........................................................................................... 175
10.6習題 .................................................................................................. 175
第 11章深度強化學習價值方法.......................................................................177
11.1深度強化學習..................................................................................... 177
11.1.1深度強化學習的背景 .............................................................. 177
11.1.2深度強化學習的意義與挑戰 .................................................... 178
11.2 DQN算法 ......................................................................................... 180
11.2.1經驗回放 ............................................................................... 181
11.2.2目標網絡 ............................................................................... 181
11.2.3 DQN算法實踐 ...................................................................... 182
11.3 DQN的擴展方法 ............................................................................... 185
11.3.1 Double DQN算法 ................................................................. 186
11.3.2 Dueling DQN算法 ................................................................ 186
11.3.3優先經驗回放 ........................................................................ 189
11.3.4算法實踐 ............................................................................... 191
11.4本章小結 ........................................................................................... 192
11.5習題 .................................................................................................. 192
第 12章深度強化學習策略方法.......................................................................194
12.1深度策略學習的挑戰........................................................................... 194
12.2隨機性深度策略優化方法 .................................................................... 196
12.2.1 Actor-Critic算法與優勢函數 .................................................. 196
12.2.2信賴域策略優化 ..................................................................... 197
12.2.3近端策略優化 ........................................................................ 205
12.3確定性深度策略優化方法 .................................................................... 208
12.3.1異策略策略梯度 ..................................................................... 208
12.3.2確定性策略梯度 ..................................................................... 212
12.3.3確定性深度策略梯度 .............................................................. 215
12.4本章小結 ........................................................................................... 217
12.5習題 .................................................................................................. 218
第 13章基於模型的深度強化學習 ...................................................................219
13.1深度模型學習方法 .............................................................................. 219
13.1.1表格形式的模型學習 .............................................................. 219
13.1.2通過預測損失進行模型學習 .................................................... 220
13.1.3模型學習中的誤差控制 ........................................................... 221
13.1.4復雜環境中的模型學習 ........................................................... 224
13.2基於模型的值函數估計 ....................................................................... 225
13.2.1基於模型的值函數估計的關鍵問題 .......................................... 225
13.2.2典型算法的值函數估計:基於模型的策略優化.......................... 227
13.3基於規劃的策略 ................................................................................. 229
13.3.1決策時規劃的必要性 .............................................................. 229
13.3.2深度模型下的決策時規劃........................................................ 231
13.3.3專家疊代 ............................................................................... 233
13.4基於模型的數據增廣........................................................................... 236
13.4.1環境模型的分支推演 .............................................................. 236
13.4.2基於潛在空間的軌跡想象........................................................ 239
13.5可微模型下的策略優化 ....................................................................... 241
13.5.1高斯過程建模動力學模型........................................................ 242
13.5.2神經網絡模型可微性在策略優化中的應用 ................................ 244
13.5.3可微物理引擎及可微世界模型的策略學習 ................................ 246
13.6本章小結 ........................................................................................... 248
13.7習題 .................................................................................................. 248
第 14章模仿學習...........................................................................................250
14.1基於示教的學習 ................................................................................. 250
14.2行為克隆 ........................................................................................... 251
14.2.1行為克隆在連續控制和離散控制問題上的應用.......................... 251
14.2.2 DAgger算法 ......................................................................... 253
14.2.3從觀測空間中進行行為克隆 .................................................... 254
14.3逆強化學習 ........................................................................................ 256
14.3.1獎勵函數為線性表示的最大熵逆強化學習 ................................ 257
14.3.2獎勵函數為神經網絡表征的最大熵逆強化學習.......................... 258
14.4生成對抗模仿學習 .............................................................................. 259
14.5本章小結 ........................................................................................... 261
14.6習題 .................................................................................................. 262
第 15章離線強化學習 ....................................................................................264
15.1離線強化學習背景介紹 ....................................................................... 264
15.1.1同策略與異策略強化學習方法的區別 ....................................... 264
15.1.2為什麼需要離線強化學習........................................................ 265
15.2離線強化學習基本概念 ....................................................................... 266
15.2.1離線強化學習的判斷標準........................................................ 266
15.2.2離線強化學習的定義 .............................................................. 267
15.2.3離線強化學習和模仿學習的區別.............................................. 268
15.2.4離線強化學習的分類 .............................................................. 269
15.2.5離線強化學習的挑戰 .............................................................. 275
15.3自模仿學習 ........................................................................................ 276
15.3.1獎勵加權回歸算法.................................................................. 277
15.3.2優勢加權回歸算法.................................................................. 278
15.3.3優勢加權 Actor-Critic算法 .................................................... 280
15.3.4其他自模仿學習算法 .............................................................. 280
15.4離線無模型強化學習........................................................................... 281
15.4.1 Q-學習框架下的離線無模型算法 ............................................. 281
15.4.2批量限制 Q-學習算法............................................................. 282
15.4.3保守 Q-學習算法 ................................................................... 284
15.4.4結合策略約束與不確定性估計的離線無模型算法 ...................... 286
15.4.5隨機集成混合算法.................................................................. 288
15.4.6 BEAR算法 ........................................................................... 289
15.4.7 BRAC算法 ........................................................................... 290
15.4.8使用軌跡優化的離線無模型算法.............................................. 291
15.4.9其他離線無模型強化學習算法 ................................................ 292
15.5離線基於模型的強化學習 .................................................................... 292
15.5.1 MOReL算法 ......................................................................... 293
15.5.2 MOPO算法 .......................................................................... 294
15.5.3其他離線基於模型的算法........................................................ 297
15.6本章小結 ........................................................................................... 298
15.7習題 .................................................................................................. 299
第 16章目標驅動的強化學習 ..........................................................................300
16.1目標驅動的任務求解........................................................................... 300
16.2目標增強的馬爾可夫決策過程 ............................................................. 301
16.3目標分解與子任務學習 ....................................................................... 303
16.3.1中等難度目標 ........................................................................ 304
16.3.2探索驅動的目標選擇 .............................................................. 304
16.3.3從經驗中搜索子目標 .............................................................. 306
16.3.4基於模型的規劃 ..................................................................... 309
16.3.5從專家數據學習 ..................................................................... 310
16.3.6總結...................................................................................... 312
16.4重標註算法 ........................................................................................ 312
16.4.1基本原理與方法 ..................................................................... 312
16.4.2相關方法 ............................................................................... 314
16.5分層強化學習..................................................................................... 316
16.5.1分層強化學習概述.................................................................. 316
16.5.2 Option-Critic架構 ................................................................. 318
16.6倒裝強化學習..................................................................................... 320
16.6.1監督學習框架下的實現 ........................................................... 320
16.6.2基於 Transformer的決策生成方法 .......................................... 321
16.6.3總結...................................................................................... 323
16.7本章小結 ........................................................................................... 323
16.8習題 .................................................................................................. 324
第 17章基於人類反饋的強化學習 ...................................................................325
17.1人類反饋建模..................................................................................... 325
17.1.1人類偏好學習 ........................................................................ 326
17.1.2獎勵模型的設計 ..................................................................... 327
17.1.3人類反饋數據的收集模式........................................................ 329
17.2主動學習與人類協作........................................................................... 331
17.2.1主動學習的基本概念 .............................................................. 331
17.2.2主動學習在人類反饋學習中的應用 .......................................... 332
17.3安全性與價值對齊 .............................................................................. 334
17.3.1強化學習的安全挑戰 .............................................................. 334
17.3.2對抗攻擊與魯棒性提升 ........................................................... 335
17.3.3價值對齊的挑戰與方法 ........................................................... 336
17.3.4倫理約束與人工監督 .............................................................. 337
17.4本章小結 ........................................................................................... 338
17.5習題 .................................................................................................. 339
第 18章基於擴散模型的強化學習 ...................................................................340
18.1擴散模型基礎..................................................................................... 341
18.1.1擴散模型的核心原理 .............................................................. 341
18.1.2擴散模型的主要變體 .............................................................. 342
18.1.3擴散模型的特殊采樣方法........................................................ 344
18.2基於擴散模型的規劃........................................................................... 346
18.2.1擴散規劃的基本框架 .............................................................. 347
18.2.2擴散規劃的代表性工作 ........................................................... 347
18.3基於擴散模型的策略........................................................................... 349
18.3.1擴散策略的基本框架 .............................................................. 349
18.3.2擴散策略的代表性工作 ........................................................... 351
18.4基於擴散模型的數據增廣 .................................................................... 353
18.4.1擴散數據增廣的基本框架........................................................ 353
18.4.2擴散數據增廣的代表性工作 .................................................... 354
18.5基於擴散模型的環境建模 .................................................................... 355
18.5.1擴散環境建模的基本框架........................................................ 355
18.5.2擴散環境建模的代表性工作 .................................................... 356
18.6本章小結 ........................................................................................... 357
18.7習題 .................................................................................................. 357
第 19章大規模並行強化學習 ..........................................................................358
19.1強化學習訓練的規模化 ....................................................................... 358
19.2環境並行與數據並行........................................................................... 359
19.2.1環境的並行............................................................................ 362
19.2.2采樣與訓練間的並行 .............................................................. 363
19.2.3策略滯後問題 ........................................................................ 364
19.3強化學習的並行訓練框架 .................................................................... 365
19.3.1強化學習訓練過程.................................................................. 365
19.3.2基於異步的強化學習訓練方法 ................................................. 367
19.3.3基於同步的強化學習訓練方法 ................................................. 370
19.4進程通信與傳輸效率優化 .................................................................... 373
19.4.1操作系統中的進程通信 ........................................................... 373
19.4.2 Python中的進程通信 ............................................................ 374
19.4.3傳輸效率優化 ........................................................................ 379
19.5本章小結 ........................................................................................... 381
19.6習題 .................................................................................................. 382
第 20章量子強化學習 ....................................................................................384
20.1量子計算概述..................................................................................... 384
20.1.1量子計算的起源與發展 ........................................................... 384
20.1.2量子計算的基本原理 .............................................................. 385
20.2基於量子方法的強化學習 .................................................................... 388
20.2.1量子強化學習的興起背景........................................................ 388
20.2.2量子強化學習的基本原理........................................................ 389
20.3量子強化學習的應用領域 .................................................................... 392
20.3.1量子計算優化 ........................................................................ 392
20.3.2量子通信 ............................................................................... 395
20.3.3量子化學與材料科學 .............................................................. 398
20.4本章小結 ........................................................................................... 399
20.5習題 .................................................................................................. 400
附錄 A符號表和術語表 ...................................................................................401
A.1符號表 ............................................................................................... 401
A.2中英文術語表 ..................................................................................... 401
參考文獻 ...........................................................................................................407



