強化學習

Name: 強化學習
Price: 594 TWD
Availability: OnlineOnly
Author: 張偉楠，李帥，溫穎，蘭旭光，楊森
ISBN: 730271469X

張偉楠，李帥，溫穎，蘭旭光，楊森

預覽內頁

出版商: 清華大學
出版日期: 2026-05-01
售價: $594
語言: 簡體中文
頁數: 420
ISBN: 730271469X
ISBN-13: 9787302714699
相關分類: Reinforcement

下單後立即進貨 (約4週~6週)

商品描述

"本書是教育部人工智能領域“ 101計劃”“強化學習”課程配套教材。本書采用“基礎理論—進階方法—前沿拓展”的三段式知識體系，幫助讀者由淺入深地掌握強化學習的核心思想與方法論。全書分為三部分：第一部分強化學習基礎（第 1～7章），從學科概覽與發展脈絡出發，介紹馬爾可夫決策過程（ MDP）的理論基礎，重點講解表格型強化學習方法，通過網格世界、懸崖行走等經典案例，幫助讀者深入理解強化學習算法的核心原理；第二部分強化學習進階（第 8～13章），聚焦深度強化學習的範式遷移與方法創新，從線性近似過渡到深度神經網絡的價值函數逼近，對比分析 DQN、PPO、 SAC等主流深度強化學習算法架構，並剖析基於模型的方法在環境建模方面的優勢，特別註重算法原理的深入剖析，使讀者能夠掌握深度強化學習的核心思想；第三部分強化學習前沿（第 14～20章），拓展學科交叉應用與前沿研究方向，涵蓋模仿學習、離線強化學習等數據驅動範式，詳解人類反饋強化學習（ RLHF）的對齊技術，並探索量子計算、擴散模型等新興交叉領域。全書采用分層知識體系，適配不同教學需求；提供學科全景視角，包括歷史脈絡梳理、學科發展樹狀圖和未解問題討論，幫助讀者建立完整的知識框架；立足理論，著眼實踐，全書關鍵算法的關鍵模塊均配備代碼實例演示，方便學生親自試驗，在實操中增強對算法原理的理解；註重教學友好性，每章包含本章小結、關鍵公式推導和習題，方便教師授課與學生自學。本書是一本面向高等學校本科生的強化學習系統性教材，適合作為相關專業的“強化學習”課程的教材使用，也可供相關領域的研究人員參考。 "

目錄大綱

第 1章強化學習概述 .....................................................1

1.1決策型人工智能 .................................................. 1

1.2強化學習是什麼 .................................................. 2

1.3強化學習的思維方式 ........................................... 4

1.4強化學習的基本方法概覽..................................... 5

1.4.1環境模型 ................................................. 5

1.4.2價值函數和策略 ....................................... 6

1.4.3表格式強化學習和參數化強化學習............. 7

1.5強化學習前沿概覽............................................... 8

1.6強化學習應用概覽............................................. 12

1.7本章小結 .......................................................... 13

1.8習題................................................................. 14

第 2章強化學習的歷史沿革 .........................................15

2.1強化學習的早期發展 ......................................... 15

2.2強化學習的關鍵技術發展................................... 23

2.3本章小結 .......................................................... 34

2.4習題................................................................. 34

第 3章在線學習與探索利用平衡 ..................................39

3.1在線學習的學習目標 ......................................... 39

3.2先探索後利用算法............................................. 40

3.3 χ-貪婪算法 ....................................................... 43

3.4置信上界算法 ................................................... 46

3.4.1 UCB1算法 ............................................ 46

3.4.2 UCB1算法的優化變種 .......................... 48

3.4.3 UCB算法的優勢與局限性 ...................... 49

3.5湯姆森采樣算法 ................................................ 49

3.6在線學習的問題下界 ......................................... 53

3.6.1問題獨立型下界 ..................................... 54

3.6.2問題依賴型下界 ..................................... 56

3.7本章小結 ............................................................................................... 57

3.8習題...................................................................................................... 58

第 4章馬爾可夫決策過程 .................................................................................59

4.1馬爾可夫過程 ........................................................................................ 59

4.1.1馬爾可夫性質.............................................................................. 60

4.1.2馬爾可夫過程的定義.................................................................... 61

4.2馬爾可夫決策過程.................................................................................. 62

4.3策略...................................................................................................... 64

4.4價值函數 ............................................................................................... 65

4.5占用度量 ............................................................................................... 68

4.6本章小結 ............................................................................................... 74

4.7習題...................................................................................................... 74

第 5章動態規劃...............................................................................................76

5.1貝爾曼方程............................................................................................ 77

5.1.1貝爾曼期望方程 .......................................................................... 77

5.1.2貝爾曼最優方程 .......................................................................... 78

5.2策略評估 ............................................................................................... 79

5.3策略提升定理 ........................................................................................ 81

5.4策略疊代 ............................................................................................... 82

5.5價值疊代 ............................................................................................... 85

5.6不動點定理............................................................................................ 87

5.7本章小結 ............................................................................................... 89

5.8習題...................................................................................................... 90

第 6章無模型策略評估.....................................................................................91

6.1無模型強化學習 ..................................................................................... 91

6.1.1均值估計 .................................................................................... 91

6.1.2無模型策略評估的意義 ................................................................ 92

6.2蒙特卡洛方法 ........................................................................................ 92

6.2.1狀態價值函數的蒙特卡洛估計 ...................................................... 93

6.2.2動作價值函數的蒙特卡洛估計 ...................................................... 94

6.3時序差分方法 ........................................................................................ 95

6.4重要性采樣............................................................................................ 98

6.5本章小結 ............................................................................................. 100

6.6習題.................................................................................................... 101

第 7章無模型策略學習...................................................................................102

7.1 無模型策略學習概述 ............................................................................ 102 Sarsa .................................................................................................. 103

7.2

7.2.1 Sarsa：使用單步采樣的價值函數更新 ......................................... 103

7.2.2懸崖行走環境下的實現細節........................................................ 105

7.2.3 Sarsa的常見變體：期望 Sarsa................................................... 106

7.3 Q-學習 ................................................................................................ 106

7.3.1 Q-學習：使用單步最優值的價值函數更新 ................................... 106

7.3.2懸崖行走環境下的實現細節........................................................ 108

7.3.3 Q-學習的常用改進：雙 Q-學習 .................................................. 110

7.4 多步自助法.......................................................................................... 111

7.4.1多步時序差分............................................................................ 111

7.4.2多步 Sarsa................................................................................ 112

7.4.3多步異策略方法中的重要性采樣 ................................................. 114

7.4.4多步樹回溯 ............................................................................... 115

7.4.5 Q(ξ) ........................................................................................ 115

7.5 TD(η)................................................................................................. 117

7.5.1 η-回報...................................................................................... 117

7.5.2資格跡 .................................................................................... 117

7.5.3 Sarsa(η) ................................................................................... 119

7.6 本章小結 ............................................................................................. 120

7.7 習題.................................................................................................... 120

第 8章基於規劃的強化學習 ............................................................................122

8.1 規劃與搜索.......................................................................................... 123

8.2 規劃與學習.......................................................................................... 125

8.2.1從 Q-學習到 Q規劃 .................................................................. 125

8.2.2價值函數的采樣更新與期望更新 ................................................. 125

8.2.3 Dyna-Q：規劃與學習的融合 ...................................................... 126

8.2.4 Dyna-Q+：模型的修正 .............................................................. 129

8.2.5概率環境中的模型學習 .............................................................. 131

8.3 決策時規劃方法 ................................................................................... 132

8.3.1啟發式搜索 ............................................................................... 133

8.3.2預演算法 .................................................................................. 134

8.4 蒙特卡洛樹搜索 ................................................................................... 134

8.4.1蒙特卡洛樹搜索的算法介紹........................................................ 134

8.4.2以圍棋為例：蒙特卡洛樹搜索的應用 .......................................... 137

8.5本章小結 ............................................................................................. 138

8.6習題.................................................................................................... 139

第 9章部分可觀測的馬爾可夫決策過程 ...........................................................140

9.1部分可觀測的馬爾可夫決策過程概述 ..................................................... 140

9.2不確定性下規劃 ................................................................................... 141

9.2.1有限空間下的部分可觀測的馬爾可夫決策過程離線算法................ 143

9.2.2在線部分可觀測的馬爾可夫決策過程算法.................................... 145

9.3局部最優解.......................................................................................... 146

9.4卡爾曼濾波.......................................................................................... 147

9.4.1線性卡爾曼濾波 ........................................................................ 147

9.4.2拓展卡爾曼濾波 ........................................................................ 150

9.5線性二次控制 ...................................................................................... 151

9.6分離原理 ............................................................................................. 153

9.7本章小結 ............................................................................................. 155

9.8習題.................................................................................................... 156

第 10章參數化近似方法.................................................................................157

10.1函數逼近思想..................................................................................... 157

10.2價值函數近似方法 .............................................................................. 158

10.2.1線性近似方法 ........................................................................ 159

10.2.2非線性近似方法 ..................................................................... 165

10.3策略梯度 ........................................................................................... 166

10.3.1策略梯度定理 ........................................................................ 167

10.3.2 REINFORCE算法 ................................................................ 170

10.4 Actor-Critic算法 ............................................................................... 172

10.5本章小結 ........................................................................................... 175

10.6習題 .................................................................................................. 175

第 11章深度強化學習價值方法.......................................................................177

11.1深度強化學習..................................................................................... 177

11.1.1深度強化學習的背景 .............................................................. 177

11.1.2深度強化學習的意義與挑戰 .................................................... 178

11.2 DQN算法 ......................................................................................... 180

11.2.1經驗回放 ............................................................................... 181

11.2.2目標網絡 ............................................................................... 181

11.2.3 DQN算法實踐 ...................................................................... 182

11.3 DQN的擴展方法 ............................................................................... 185

11.3.1 Double DQN算法 ................................................................. 186

11.3.2 Dueling DQN算法 ................................................................ 186

11.3.3優先經驗回放 ........................................................................ 189

11.3.4算法實踐 ............................................................................... 191

11.4本章小結 ........................................................................................... 192

11.5習題 .................................................................................................. 192

第 12章深度強化學習策略方法.......................................................................194

12.1深度策略學習的挑戰........................................................................... 194

12.2隨機性深度策略優化方法 .................................................................... 196

12.2.1 Actor-Critic算法與優勢函數 .................................................. 196

12.2.2信賴域策略優化 ..................................................................... 197

12.2.3近端策略優化 ........................................................................ 205

12.3確定性深度策略優化方法 .................................................................... 208

12.3.1異策略策略梯度 ..................................................................... 208

12.3.2確定性策略梯度 ..................................................................... 212

12.3.3確定性深度策略梯度 .............................................................. 215

12.4本章小結 ........................................................................................... 217

12.5習題 .................................................................................................. 218

第 13章基於模型的深度強化學習 ...................................................................219

13.1深度模型學習方法 .............................................................................. 219

13.1.1表格形式的模型學習 .............................................................. 219

13.1.2通過預測損失進行模型學習 .................................................... 220

13.1.3模型學習中的誤差控制 ........................................................... 221

13.1.4復雜環境中的模型學習 ........................................................... 224

13.2基於模型的值函數估計 ....................................................................... 225

13.2.1基於模型的值函數估計的關鍵問題 .......................................... 225

13.2.2典型算法的值函數估計：基於模型的策略優化.......................... 227

13.3基於規劃的策略 ................................................................................. 229

13.3.1決策時規劃的必要性 .............................................................. 229

13.3.2深度模型下的決策時規劃........................................................ 231

13.3.3專家疊代 ............................................................................... 233

13.4基於模型的數據增廣........................................................................... 236

13.4.1環境模型的分支推演 .............................................................. 236

13.4.2基於潛在空間的軌跡想象........................................................ 239

13.5可微模型下的策略優化 ....................................................................... 241

13.5.1高斯過程建模動力學模型........................................................ 242

13.5.2神經網絡模型可微性在策略優化中的應用 ................................ 244

13.5.3可微物理引擎及可微世界模型的策略學習 ................................ 246

13.6本章小結 ........................................................................................... 248

13.7習題 .................................................................................................. 248

第 14章模仿學習...........................................................................................250

14.1基於示教的學習 ................................................................................. 250

14.2行為克隆 ........................................................................................... 251

14.2.1行為克隆在連續控制和離散控制問題上的應用.......................... 251

14.2.2 DAgger算法 ......................................................................... 253

14.2.3從觀測空間中進行行為克隆 .................................................... 254

14.3逆強化學習 ........................................................................................ 256

14.3.1獎勵函數為線性表示的最大熵逆強化學習 ................................ 257

14.3.2獎勵函數為神經網絡表征的最大熵逆強化學習.......................... 258

14.4生成對抗模仿學習 .............................................................................. 259

14.5本章小結 ........................................................................................... 261

14.6習題 .................................................................................................. 262

第 15章離線強化學習 ....................................................................................264

15.1離線強化學習背景介紹 ....................................................................... 264

15.1.1同策略與異策略強化學習方法的區別 ....................................... 264

15.1.2為什麼需要離線強化學習........................................................ 265

15.2離線強化學習基本概念 ....................................................................... 266

15.2.1離線強化學習的判斷標準........................................................ 266

15.2.2離線強化學習的定義 .............................................................. 267

15.2.3離線強化學習和模仿學習的區別.............................................. 268

15.2.4離線強化學習的分類 .............................................................. 269

15.2.5離線強化學習的挑戰 .............................................................. 275

15.3自模仿學習 ........................................................................................ 276

15.3.1獎勵加權回歸算法.................................................................. 277

15.3.2優勢加權回歸算法.................................................................. 278

15.3.3優勢加權 Actor-Critic算法 .................................................... 280

15.3.4其他自模仿學習算法 .............................................................. 280

15.4離線無模型強化學習........................................................................... 281

15.4.1 Q-學習框架下的離線無模型算法 ............................................. 281

15.4.2批量限制 Q-學習算法............................................................. 282

15.4.3保守 Q-學習算法 ................................................................... 284

15.4.4結合策略約束與不確定性估計的離線無模型算法 ...................... 286

15.4.5隨機集成混合算法.................................................................. 288

15.4.6 BEAR算法 ........................................................................... 289

15.4.7 BRAC算法 ........................................................................... 290

15.4.8使用軌跡優化的離線無模型算法.............................................. 291

15.4.9其他離線無模型強化學習算法 ................................................ 292

15.5離線基於模型的強化學習 .................................................................... 292

15.5.1 MOReL算法 ......................................................................... 293

15.5.2 MOPO算法 .......................................................................... 294

15.5.3其他離線基於模型的算法........................................................ 297

15.6本章小結 ........................................................................................... 298

15.7習題 .................................................................................................. 299

第 16章目標驅動的強化學習 ..........................................................................300

16.1目標驅動的任務求解........................................................................... 300

16.2目標增強的馬爾可夫決策過程 ............................................................. 301

16.3目標分解與子任務學習 ....................................................................... 303

16.3.1中等難度目標 ........................................................................ 304

16.3.2探索驅動的目標選擇 .............................................................. 304

16.3.3從經驗中搜索子目標 .............................................................. 306

16.3.4基於模型的規劃 ..................................................................... 309

16.3.5從專家數據學習 ..................................................................... 310

16.3.6總結...................................................................................... 312

16.4重標註算法 ........................................................................................ 312

16.4.1基本原理與方法 ..................................................................... 312

16.4.2相關方法 ............................................................................... 314

16.5分層強化學習..................................................................................... 316

16.5.1分層強化學習概述.................................................................. 316

16.5.2 Option-Critic架構 ................................................................. 318

16.6倒裝強化學習..................................................................................... 320

16.6.1監督學習框架下的實現 ........................................................... 320

16.6.2基於 Transformer的決策生成方法 .......................................... 321

16.6.3總結...................................................................................... 323

16.7本章小結 ........................................................................................... 323

16.8習題 .................................................................................................. 324

第 17章基於人類反饋的強化學習 ...................................................................325

17.1人類反饋建模..................................................................................... 325

17.1.1人類偏好學習 ........................................................................ 326

17.1.2獎勵模型的設計 ..................................................................... 327

17.1.3人類反饋數據的收集模式........................................................ 329

17.2主動學習與人類協作........................................................................... 331

17.2.1主動學習的基本概念 .............................................................. 331

17.2.2主動學習在人類反饋學習中的應用 .......................................... 332

17.3安全性與價值對齊 .............................................................................. 334

17.3.1強化學習的安全挑戰 .............................................................. 334

17.3.2對抗攻擊與魯棒性提升 ........................................................... 335

17.3.3價值對齊的挑戰與方法 ........................................................... 336

17.3.4倫理約束與人工監督 .............................................................. 337

17.4本章小結 ........................................................................................... 338

17.5習題 .................................................................................................. 339

第 18章基於擴散模型的強化學習 ...................................................................340

18.1擴散模型基礎..................................................................................... 341

18.1.1擴散模型的核心原理 .............................................................. 341

18.1.2擴散模型的主要變體 .............................................................. 342

18.1.3擴散模型的特殊采樣方法........................................................ 344

18.2基於擴散模型的規劃........................................................................... 346

18.2.1擴散規劃的基本框架 .............................................................. 347

18.2.2擴散規劃的代表性工作 ........................................................... 347

18.3基於擴散模型的策略........................................................................... 349

18.3.1擴散策略的基本框架 .............................................................. 349

18.3.2擴散策略的代表性工作 ........................................................... 351

18.4基於擴散模型的數據增廣 .................................................................... 353

18.4.1擴散數據增廣的基本框架........................................................ 353

18.4.2擴散數據增廣的代表性工作 .................................................... 354

18.5基於擴散模型的環境建模 .................................................................... 355

18.5.1擴散環境建模的基本框架........................................................ 355

18.5.2擴散環境建模的代表性工作 .................................................... 356

18.6本章小結 ........................................................................................... 357

18.7習題 .................................................................................................. 357

第 19章大規模並行強化學習 ..........................................................................358

19.1強化學習訓練的規模化 ....................................................................... 358

19.2環境並行與數據並行........................................................................... 359

19.2.1環境的並行............................................................................ 362

19.2.2采樣與訓練間的並行 .............................................................. 363

19.2.3策略滯後問題 ........................................................................ 364

19.3強化學習的並行訓練框架 .................................................................... 365

19.3.1強化學習訓練過程.................................................................. 365

19.3.2基於異步的強化學習訓練方法 ................................................. 367

19.3.3基於同步的強化學習訓練方法 ................................................. 370

19.4進程通信與傳輸效率優化 .................................................................... 373

19.4.1操作系統中的進程通信 ........................................................... 373

19.4.2 Python中的進程通信 ............................................................ 374

19.4.3傳輸效率優化 ........................................................................ 379

19.5本章小結 ........................................................................................... 381

19.6習題 .................................................................................................. 382

第 20章量子強化學習 ....................................................................................384

20.1量子計算概述..................................................................................... 384

20.1.1量子計算的起源與發展 ........................................................... 384

20.1.2量子計算的基本原理 .............................................................. 385

20.2基於量子方法的強化學習 .................................................................... 388

20.2.1量子強化學習的興起背景........................................................ 388

20.2.2量子強化學習的基本原理........................................................ 389

20.3量子強化學習的應用領域 .................................................................... 392

20.3.1量子計算優化 ........................................................................ 392

20.3.2量子通信 ............................................................................... 395

20.3.3量子化學與材料科學 .............................................................. 398

20.4本章小結 ........................................................................................... 399

20.5習題 .................................................................................................. 400

附錄 A符號表和術語表 ...................................................................................401

A.1符號表 ............................................................................................... 401

A.2中英文術語表 ..................................................................................... 401

參考文獻 ...........................................................................................................407

強化學習

張偉楠，李帥，溫穎，蘭旭光，楊森

商品描述

目錄大綱

類似商品