強化學習

張偉楠,李帥,溫穎,蘭旭光,楊森

  • 出版商: 清華大學
  • 出版日期: 2026-05-01
  • 售價: $594
  • 語言: 簡體中文
  • 頁數: 420
  • ISBN: 730271469X
  • ISBN-13: 9787302714699
  • 相關分類: Reinforcement
  • 下單後立即進貨 (約4週~6週)

  • 強化學習-preview-1
  • 強化學習-preview-2
  • 強化學習-preview-3
強化學習-preview-1

商品描述

"本書是教育部人工智能領域“ 101計劃”“強化學習”課程配套教材。 本書采用“基礎理論—進階方法—前沿拓展”的三段式知識體系,幫助讀者由淺入深地掌握強化學習的核心思想與方法論。全書分為三部分:第一部分強化學習基礎(第 1~7章),從學科概覽與發展脈絡出發,介紹馬爾可夫決策過程( MDP)的理論基礎,重點講解表格型強化學習方法,通過網格世界、懸崖行走等經典案例,幫助讀者深入理解強化學習算法的核心原理;第二部分強化學習進階(第 8~13章),聚焦深度強化學習的範式遷移與方法創新,從線性近似過渡到深度神經網絡的價值函數逼近,對比分析 DQN、PPO、 SAC等主流深度強化學習算法架構,並剖析基於模型的方法在環境建模方面的優勢,特別註重算法原理的深入剖析,使讀者能夠掌握深度強化學習的核心思想;第三部分強化學習前沿(第 14~20章),拓展學科交叉應用與前沿研究方向,涵蓋模仿學習、離線強化學習等數據驅動範式,詳解人類反饋強化學習( RLHF)的對齊技術,並探索量子計算、擴散模型等新興交叉領域。 全書采用分層知識體系,適配不同教學需求;提供學科全景視角,包括歷史脈絡梳理、學科發展樹狀圖和未解問題討論,幫助讀者建立完整的知識框架;立足理論,著眼實踐,全書關鍵算法的關鍵模塊均配備代碼實例演示,方便學生親自試驗,在實操中增強對算法原理的理解;註重教學友好性,每章包含本章小結、關鍵公式推導和習題,方便教師授課與學生自學。 本書是一本面向高等學校本科生的強化學習系統性教材,適合作為相關專業的“強化學習”課程的教材使用,也可供相關領域的研究人員參考。 "

目錄大綱

 

 

目錄

第 1章強化學習概述 .....................................................1 

1.1決策型人工智能 .................................................. 1 

1.2強化學習是什麼 .................................................. 2 

1.3強化學習的思維方式 ........................................... 4 

1.4強化學習的基本方法概覽..................................... 5 

1.4.1環境模型 ................................................. 5 

1.4.2價值函數和策略 ....................................... 6 

1.4.3表格式強化學習和參數化強化學習............. 7 

1.5強化學習前沿概覽............................................... 8 

1.6強化學習應用概覽............................................. 12 

1.7本章小結 .......................................................... 13 

1.8習題................................................................. 14

第 2章強化學習的歷史沿革 .........................................15 

2.1強化學習的早期發展 ......................................... 15 

2.2強化學習的關鍵技術發展................................... 23 

2.3本章小結 .......................................................... 34 

2.4習題................................................................. 34

第 3章在線學習與探索利用平衡 ..................................39 

3.1在線學習的學習目標 ......................................... 39 

3.2先探索後利用算法............................................. 40 

3.3 χ-貪婪算法 ....................................................... 43 

3.4置信上界算法 ................................................... 46 

3.4.1 UCB1算法 ............................................ 46 

3.4.2 UCB1算法的優化變種 .......................... 48 

3.4.3 UCB算法的優勢與局限性 ...................... 49 

3.5湯姆森采樣算法 ................................................ 49 

3.6在線學習的問題下界 ......................................... 53 

3.6.1問題獨立型下界 ..................................... 54 

3.6.2問題依賴型下界 ..................................... 56 

3.7本章小結 ............................................................................................... 57 

3.8習題...................................................................................................... 58

第 4章馬爾可夫決策過程 .................................................................................59 

4.1馬爾可夫過程 ........................................................................................ 59 

4.1.1馬爾可夫性質.............................................................................. 60 

4.1.2馬爾可夫過程的定義.................................................................... 61 

4.2馬爾可夫決策過程.................................................................................. 62 

4.3策略...................................................................................................... 64 

4.4價值函數 ............................................................................................... 65 

4.5占用度量 ............................................................................................... 68 

4.6本章小結 ............................................................................................... 74 

4.7習題...................................................................................................... 74

第 5章動態規劃...............................................................................................76 

5.1貝爾曼方程............................................................................................ 77 

5.1.1貝爾曼期望方程 .......................................................................... 77 

5.1.2貝爾曼最優方程 .......................................................................... 78 

5.2策略評估 ............................................................................................... 79 

5.3策略提升定理 ........................................................................................ 81 

5.4策略疊代 ............................................................................................... 82 

5.5價值疊代 ............................................................................................... 85 

5.6不動點定理............................................................................................ 87 

5.7本章小結 ............................................................................................... 89 

5.8習題...................................................................................................... 90

第 6章無模型策略評估.....................................................................................91 

6.1無模型強化學習 ..................................................................................... 91 

6.1.1均值估計 .................................................................................... 91 

6.1.2無模型策略評估的意義 ................................................................ 92 

6.2蒙特卡洛方法 ........................................................................................ 92 

6.2.1狀態價值函數的蒙特卡洛估計 ...................................................... 93 

6.2.2動作價值函數的蒙特卡洛估計 ...................................................... 94 

6.3時序差分方法 ........................................................................................ 95 

6.4重要性采樣............................................................................................ 98 

6.5本章小結 ............................................................................................. 100 

6.6習題.................................................................................................... 101 

第 7章無模型策略學習...................................................................................102 

7.1 無模型策略學習概述 ............................................................................ 102  Sarsa .................................................................................................. 103

7.2 

7.2.1 Sarsa:使用單步采樣的價值函數更新 ......................................... 103 

7.2.2懸崖行走環境下的實現細節........................................................ 105 

7.2.3 Sarsa的常見變體:期望 Sarsa................................................... 106 

7.3  Q-學習 ................................................................................................ 106 

7.3.1 Q-學習:使用單步最優值的價值函數更新 ................................... 106 

7.3.2懸崖行走環境下的實現細節........................................................ 108 

7.3.3 Q-學習的常用改進:雙 Q-學習 .................................................. 110 

7.4 多步自助法.......................................................................................... 111 

7.4.1多步時序差分............................................................................ 111 

7.4.2多步 Sarsa................................................................................ 112 

7.4.3多步異策略方法中的重要性采樣 ................................................. 114 

7.4.4多步樹回溯 ............................................................................... 115 

7.4.5 Q(ξ) ........................................................................................ 115 

7.5  TD(η)................................................................................................. 117 

7.5.1 η-回報...................................................................................... 117 

7.5.2資格跡 .................................................................................... 117 

7.5.3 Sarsa(η) ................................................................................... 119 

7.6 本章小結 ............................................................................................. 120 

7.7 習題.................................................................................................... 120

第 8章基於規劃的強化學習 ............................................................................122 

8.1 規劃與搜索.......................................................................................... 123 

8.2 規劃與學習.......................................................................................... 125 

8.2.1從 Q-學習到 Q規劃 .................................................................. 125 

8.2.2價值函數的采樣更新與期望更新 ................................................. 125 

8.2.3 Dyna-Q:規劃與學習的融合 ...................................................... 126 

8.2.4 Dyna-Q+:模型的修正 .............................................................. 129 

8.2.5概率環境中的模型學習 .............................................................. 131 

8.3 決策時規劃方法 ................................................................................... 132 

8.3.1啟發式搜索 ............................................................................... 133 

8.3.2預演算法 .................................................................................. 134 

8.4 蒙特卡洛樹搜索 ................................................................................... 134 

8.4.1蒙特卡洛樹搜索的算法介紹........................................................ 134 

8.4.2以圍棋為例:蒙特卡洛樹搜索的應用 .......................................... 137 

8.5本章小結 ............................................................................................. 138 

8.6習題.................................................................................................... 139

第 9章部分可觀測的馬爾可夫決策過程 ...........................................................140 

9.1部分可觀測的馬爾可夫決策過程概述 ..................................................... 140 

9.2不確定性下規劃 ................................................................................... 141 

9.2.1有限空間下的部分可觀測的馬爾可夫決策過程離線算法................ 143 

9.2.2在線部分可觀測的馬爾可夫決策過程算法.................................... 145 

9.3局部最優解.......................................................................................... 146 

9.4卡爾曼濾波.......................................................................................... 147 

9.4.1線性卡爾曼濾波 ........................................................................ 147 

9.4.2拓展卡爾曼濾波 ........................................................................ 150 

9.5線性二次控制 ...................................................................................... 151 

9.6分離原理 ............................................................................................. 153 

9.7本章小結 ............................................................................................. 155 

9.8習題.................................................................................................... 156

第 10章參數化近似方法.................................................................................157 

10.1函數逼近思想..................................................................................... 157 

10.2價值函數近似方法 .............................................................................. 158 

10.2.1線性近似方法 ........................................................................ 159 

10.2.2非線性近似方法 ..................................................................... 165 

10.3策略梯度 ........................................................................................... 166 

10.3.1策略梯度定理 ........................................................................ 167 

10.3.2 REINFORCE算法 ................................................................ 170 

10.4 Actor-Critic算法 ............................................................................... 172 

10.5本章小結 ........................................................................................... 175 

10.6習題 .................................................................................................. 175

第 11章深度強化學習價值方法.......................................................................177 

11.1深度強化學習..................................................................................... 177 

11.1.1深度強化學習的背景 .............................................................. 177 

11.1.2深度強化學習的意義與挑戰 .................................................... 178 

11.2 DQN算法 ......................................................................................... 180 

11.2.1經驗回放 ............................................................................... 181 

11.2.2目標網絡 ............................................................................... 181 

11.2.3 DQN算法實踐 ...................................................................... 182 

11.3 DQN的擴展方法 ............................................................................... 185 

11.3.1 Double DQN算法 ................................................................. 186 

11.3.2 Dueling DQN算法 ................................................................ 186 

11.3.3優先經驗回放 ........................................................................ 189 

11.3.4算法實踐 ............................................................................... 191 

11.4本章小結 ........................................................................................... 192 

11.5習題 .................................................................................................. 192

第 12章深度強化學習策略方法.......................................................................194 

12.1深度策略學習的挑戰........................................................................... 194 

12.2隨機性深度策略優化方法 .................................................................... 196 

12.2.1 Actor-Critic算法與優勢函數 .................................................. 196 

12.2.2信賴域策略優化 ..................................................................... 197 

12.2.3近端策略優化 ........................................................................ 205 

12.3確定性深度策略優化方法 .................................................................... 208 

12.3.1異策略策略梯度 ..................................................................... 208 

12.3.2確定性策略梯度 ..................................................................... 212 

12.3.3確定性深度策略梯度 .............................................................. 215 

12.4本章小結 ........................................................................................... 217 

12.5習題 .................................................................................................. 218

第 13章基於模型的深度強化學習 ...................................................................219 

13.1深度模型學習方法 .............................................................................. 219 

13.1.1表格形式的模型學習 .............................................................. 219 

13.1.2通過預測損失進行模型學習 .................................................... 220 

13.1.3模型學習中的誤差控制 ........................................................... 221 

13.1.4復雜環境中的模型學習 ........................................................... 224 

13.2基於模型的值函數估計 ....................................................................... 225 

13.2.1基於模型的值函數估計的關鍵問題 .......................................... 225 

13.2.2典型算法的值函數估計:基於模型的策略優化.......................... 227 

13.3基於規劃的策略 ................................................................................. 229 

13.3.1決策時規劃的必要性 .............................................................. 229 

13.3.2深度模型下的決策時規劃........................................................ 231 

13.3.3專家疊代 ............................................................................... 233 

13.4基於模型的數據增廣........................................................................... 236 

13.4.1環境模型的分支推演 .............................................................. 236 

13.4.2基於潛在空間的軌跡想象........................................................ 239 

13.5可微模型下的策略優化 ....................................................................... 241 

13.5.1高斯過程建模動力學模型........................................................ 242 

13.5.2神經網絡模型可微性在策略優化中的應用 ................................ 244 

13.5.3可微物理引擎及可微世界模型的策略學習 ................................ 246 

13.6本章小結 ........................................................................................... 248 

13.7習題 .................................................................................................. 248

第 14章模仿學習...........................................................................................250 

14.1基於示教的學習 ................................................................................. 250 

14.2行為克隆 ........................................................................................... 251 

14.2.1行為克隆在連續控制和離散控制問題上的應用.......................... 251 

14.2.2 DAgger算法 ......................................................................... 253 

14.2.3從觀測空間中進行行為克隆 .................................................... 254 

14.3逆強化學習 ........................................................................................ 256 

14.3.1獎勵函數為線性表示的最大熵逆強化學習 ................................ 257 

14.3.2獎勵函數為神經網絡表征的最大熵逆強化學習.......................... 258 

14.4生成對抗模仿學習 .............................................................................. 259 

14.5本章小結 ........................................................................................... 261 

14.6習題 .................................................................................................. 262

第 15章離線強化學習 ....................................................................................264 

15.1離線強化學習背景介紹 ....................................................................... 264 

15.1.1同策略與異策略強化學習方法的區別 ....................................... 264 

15.1.2為什麼需要離線強化學習........................................................ 265 

15.2離線強化學習基本概念 ....................................................................... 266 

15.2.1離線強化學習的判斷標準........................................................ 266 

15.2.2離線強化學習的定義 .............................................................. 267 

15.2.3離線強化學習和模仿學習的區別.............................................. 268 

15.2.4離線強化學習的分類 .............................................................. 269 

15.2.5離線強化學習的挑戰 .............................................................. 275 

15.3自模仿學習 ........................................................................................ 276 

15.3.1獎勵加權回歸算法.................................................................. 277 

15.3.2優勢加權回歸算法.................................................................. 278 

15.3.3優勢加權 Actor-Critic算法 .................................................... 280 

15.3.4其他自模仿學習算法 .............................................................. 280 

15.4離線無模型強化學習........................................................................... 281 

15.4.1 Q-學習框架下的離線無模型算法 ............................................. 281 

15.4.2批量限制 Q-學習算法............................................................. 282 

15.4.3保守 Q-學習算法 ................................................................... 284 

15.4.4結合策略約束與不確定性估計的離線無模型算法 ...................... 286 

15.4.5隨機集成混合算法.................................................................. 288 

15.4.6 BEAR算法 ........................................................................... 289 

15.4.7 BRAC算法 ........................................................................... 290 

15.4.8使用軌跡優化的離線無模型算法.............................................. 291 

15.4.9其他離線無模型強化學習算法 ................................................ 292 

15.5離線基於模型的強化學習 .................................................................... 292 

15.5.1 MOReL算法 ......................................................................... 293 

15.5.2 MOPO算法 .......................................................................... 294 

15.5.3其他離線基於模型的算法........................................................ 297 

15.6本章小結 ........................................................................................... 298 

15.7習題 .................................................................................................. 299

第 16章目標驅動的強化學習 ..........................................................................300 

16.1目標驅動的任務求解........................................................................... 300 

16.2目標增強的馬爾可夫決策過程 ............................................................. 301 

16.3目標分解與子任務學習 ....................................................................... 303 

16.3.1中等難度目標 ........................................................................ 304 

16.3.2探索驅動的目標選擇 .............................................................. 304 

16.3.3從經驗中搜索子目標 .............................................................. 306 

16.3.4基於模型的規劃 ..................................................................... 309 

16.3.5從專家數據學習 ..................................................................... 310 

16.3.6總結...................................................................................... 312 

16.4重標註算法 ........................................................................................ 312 

16.4.1基本原理與方法 ..................................................................... 312 

16.4.2相關方法 ............................................................................... 314 

16.5分層強化學習..................................................................................... 316 

16.5.1分層強化學習概述.................................................................. 316 

16.5.2 Option-Critic架構 ................................................................. 318 

16.6倒裝強化學習..................................................................................... 320 

16.6.1監督學習框架下的實現 ........................................................... 320 

16.6.2基於 Transformer的決策生成方法 .......................................... 321 

16.6.3總結...................................................................................... 323 

16.7本章小結 ........................................................................................... 323 

16.8習題 .................................................................................................. 324 

第 17章基於人類反饋的強化學習 ...................................................................325 

17.1人類反饋建模..................................................................................... 325 

17.1.1人類偏好學習 ........................................................................ 326 

17.1.2獎勵模型的設計 ..................................................................... 327 

17.1.3人類反饋數據的收集模式........................................................ 329 

17.2主動學習與人類協作........................................................................... 331 

17.2.1主動學習的基本概念 .............................................................. 331 

17.2.2主動學習在人類反饋學習中的應用 .......................................... 332 

17.3安全性與價值對齊 .............................................................................. 334 

17.3.1強化學習的安全挑戰 .............................................................. 334 

17.3.2對抗攻擊與魯棒性提升 ........................................................... 335 

17.3.3價值對齊的挑戰與方法 ........................................................... 336 

17.3.4倫理約束與人工監督 .............................................................. 337 

17.4本章小結 ........................................................................................... 338 

17.5習題 .................................................................................................. 339

第 18章基於擴散模型的強化學習 ...................................................................340 

18.1擴散模型基礎..................................................................................... 341 

18.1.1擴散模型的核心原理 .............................................................. 341 

18.1.2擴散模型的主要變體 .............................................................. 342 

18.1.3擴散模型的特殊采樣方法........................................................ 344 

18.2基於擴散模型的規劃........................................................................... 346 

18.2.1擴散規劃的基本框架 .............................................................. 347 

18.2.2擴散規劃的代表性工作 ........................................................... 347 

18.3基於擴散模型的策略........................................................................... 349 

18.3.1擴散策略的基本框架 .............................................................. 349 

18.3.2擴散策略的代表性工作 ........................................................... 351 

18.4基於擴散模型的數據增廣 .................................................................... 353 

18.4.1擴散數據增廣的基本框架........................................................ 353 

18.4.2擴散數據增廣的代表性工作 .................................................... 354 

18.5基於擴散模型的環境建模 .................................................................... 355 

18.5.1擴散環境建模的基本框架........................................................ 355 

18.5.2擴散環境建模的代表性工作 .................................................... 356 

18.6本章小結 ........................................................................................... 357 

18.7習題 .................................................................................................. 357

第 19章大規模並行強化學習 ..........................................................................358 

19.1強化學習訓練的規模化 ....................................................................... 358 

19.2環境並行與數據並行........................................................................... 359 

19.2.1環境的並行............................................................................ 362 

19.2.2采樣與訓練間的並行 .............................................................. 363 

19.2.3策略滯後問題 ........................................................................ 364 

19.3強化學習的並行訓練框架 .................................................................... 365 

19.3.1強化學習訓練過程.................................................................. 365 

19.3.2基於異步的強化學習訓練方法 ................................................. 367 

19.3.3基於同步的強化學習訓練方法 ................................................. 370 

19.4進程通信與傳輸效率優化 .................................................................... 373 

19.4.1操作系統中的進程通信 ........................................................... 373 

19.4.2 Python中的進程通信 ............................................................ 374 

19.4.3傳輸效率優化 ........................................................................ 379 

19.5本章小結 ........................................................................................... 381 

19.6習題 .................................................................................................. 382

第 20章量子強化學習 ....................................................................................384 

20.1量子計算概述..................................................................................... 384 

20.1.1量子計算的起源與發展 ........................................................... 384 

20.1.2量子計算的基本原理 .............................................................. 385 

20.2基於量子方法的強化學習 .................................................................... 388 

20.2.1量子強化學習的興起背景........................................................ 388 

20.2.2量子強化學習的基本原理........................................................ 389 

20.3量子強化學習的應用領域 .................................................................... 392 

20.3.1量子計算優化 ........................................................................ 392 

20.3.2量子通信 ............................................................................... 395 

20.3.3量子化學與材料科學 .............................................................. 398 

20.4本章小結 ........................................................................................... 399 

20.5習題 .................................................................................................. 400

附錄 A符號表和術語表 ...................................................................................401 

A.1符號表 ............................................................................................... 401 

A.2中英文術語表 ..................................................................................... 401

參考文獻 ...........................................................................................................407