深度強化學習

王樹森 黎彧君 張志華

  • 出版商: 人民郵電
  • 出版日期: 2022-11-01
  • 售價: $779
  • 貴賓價: 9.5$740
  • 語言: 簡體中文
  • 頁數: 294
  • ISBN: 7115600694
  • ISBN-13: 9787115600691
  • 相關分類: Reinforcement
  • 立即出貨 (庫存 < 4)

  • 深度強化學習-preview-1
  • 深度強化學習-preview-2
深度強化學習-preview-1

買這商品的人也買了...

相關主題

商品描述

本書基於備受讀者推崇的王樹森“深度強化學習”系列公開視頻課,專門解決“入門深度強化學習難”的問題。

 

本書的獨特之處在於:第一,知識精簡,剔除一切不必要的概念和公式,學起來輕松;第二,內容新穎,聚焦近10年深度強化學習領域的突破,讓你一上手就緊跟最新技術。本書系統講解深度強化學習的原理與實現,但不迴避數學公式和各種模型,原創100多幅精美插圖,並以全彩印刷展示。簡潔清晰的語言+生動形象的圖示,助你掃除任何可能的學習障礙!本書內容分為五部分:基礎知識、價值學習、策略學習、多智能體強化學習、應用與展望,涉及DQN、A3C、TRPO、DDPG、AlphaGo等。

 

本書面向深度強化學習入門讀者,助你構建完整的知識體系。學完本書,你能夠輕松看懂深度強化學習的實現代碼、讀懂該領域的論文、聽懂學術報告,具備進一步自學和深挖的能力。

作者簡介

王树森

现任小红书基础模型团队负责人,从事搜索和推荐算法研发工作。从浙江大学获得计算机学士和博士学位,就读期间获得“微软学者”和“百度奖学金”等多项荣誉。在加入小红书之前,曾任美国加州大学伯克利分校博士后、美国史蒂文斯理工学院助理教授、博导。在机器学习、强化学习、数值计算、分布式计算等方向有多年科研经验,在计算机国际顶级期刊和会议上发表30多篇论文。

 

在YouTube、B站开设“深度强化学习”“深度学习”“推荐系统”公开课(ID:Shusen Wang),全网视频播放量100万次。

 

黎彧君

华为诺亚方舟实验室高级研究员,主要从事AutoML相关的研发工作。上海交通大学博士,研究方向为数值优化、强化学习;攻读博士学位期间曾前往普林斯顿大学访问一年。共同翻译出版“花书”《深度学习》。

 

张志华

北京大学数学科学学院教授。此前先后执教于浙江大学和上海交通大学,任计算机科学教授。主要从事统计学、机器学习与计算机科学领域的研究和教学。曾主讲“统计机器学习”“机器学习导论”“深度学习”“强化学习”,其课程视频广受欢迎。

目錄大綱

序言 i

前言 v

常用符號 xi

第 一部分 基礎知識

第 1章 機器學習基礎 2

1.1 線性模型 2

1.1.1 線性回歸 2

1.1.2 邏輯斯諦回歸 4

1.1.3 softmax分類器 7

1.2 神經網絡 10

1.2.1 全連接神經網絡 10

1.2.2 捲積神經網絡 11

1.3 梯度下降和反向傳播 12

1.3.1 梯度下降 13

1.3.2 反向傳播 14

知識點小結 16

習題 16

第 2章 蒙特卡洛方法 18

2.1 隨機變量 18

2.2 蒙特卡洛方法實例 21

2.2.1 例一:近似π值 21

2.2.2 例二:估算陰影部分面積 23

2.2.3 例三:近似定積分 25

2.2.4 例四:近似期望 26

2.2.5 例五:隨機梯度 27

知識點小結 29

習題 29

第3章 強化學習基本概念 31

3.1 馬爾可夫決策過程 31

3.1.1 狀態、動作、獎勵 31

3.1.2 狀態轉移 32

3.2 策略 33

3.3 隨機性 35

3.4 回報與折扣回報 37

3.4.1 回報 37

3.4.2 折扣回報 37

3.4.3 回報中的隨機性 38

3.4.4 有限期MDP和無限期MDP 39

3.5 價值函數 39

3.5.1 動作價值函數 40

3.5.2 最優動作價值函數 40

3.5.3 狀態價值函數 41

3.6 實驗環境:OpenAI Gym 42

知識點小結 44

習題 44

第二部分 價值學習

第4章 DQN與Q學習 48

4.1 DQN 48

4.1.1 概念回顧 48

4.1.2 DQN表達式 49

4.1.3 DQN的梯度 50

4.2 TD算法 50

4.2.1 駕車時間預測示例 50

4.2.2 TD算法的原理 51

4.3 用TD訓練DQN 53

4.3.1 算法推導 53

4.3.2 訓練流程 55

4.4 Q 學習算法 57

4.4.1 表格形式的Q學習 57

4.4.2 算法推導 57

4.4.3 訓練流程 58

4.5 同策略與異策略 59

相關文獻 60

知識點小結 61

習題 61

第5章 SARSA算法 63

5.1 表格形式的SARSA 63

5.1.1 算法推導 63

5.1.2 訓練流程 64

5.1.3 Q學習與SARSA的對比 65

5.2 神經網絡形式的SARSA 66

5.2.1 價值網絡 66

5.2.2 算法推導 66

5.2.3 訓練流程 67

5.3 多步TD目標 68

5.3.1 算法推導 68

5.3.2 多步TD目標的原理 69

5.3.3 訓練流程 70

5.4 蒙特卡洛方法與自舉 70

5.4.1 蒙特卡洛方法 71

5.4.2 自舉 71

5.4.3 蒙特卡洛方法和自舉的對比 72

相關文獻 73

知識點小結 73

習題 74

第6章 價值學習高級技巧 75

6.1 經驗回放 75

6.1.1 經驗回放的優點 76

6.1.2 經驗回放的局限性 76

6.1.3 優先經驗回放 77

6.2 高估問題及解決方法 79

6.2.1 自舉導致偏差傳播 79

6.2.2 最大化導致高估 80

6.2.3 高估的危害 81

6.2.4 使用目標網絡 82

6.2.5 雙Q學習算法 84

6.2.6 總結 85

6.3 對決網絡 86

6.3.1 最優優勢函數 86

6.3.2 對決網絡的結構 87

6.3.3 解決不唯一性 88

6.3.4 對決網絡的實際實現 89

6.4 噪聲網絡 90

6.4.1 噪聲網絡的原理 90

6.4.2 噪聲DQN 91

6.4.3 訓練流程 93

相關文獻 94

知識點小結 94

習題 94

第三部分 策略學習

第7章 策略梯度方法 98

7.1 策略網絡 98

7.2 策略學習的目標函數 99

7.3 策略梯度定理 101

7.3.1 簡化證明 101

7.3.2 嚴格證明 102

7.3.3 近似策略梯度 106

7.4 REINFORCE 107

7.4.1 簡化推導 108

7.4.2 訓練流程 108

7.4.3 嚴格推導 109

7.5 actor-critic 110

7.5.1 價值網絡 110

7.5.2 算法推導 111

7.5.3 訓練流程 114

7.5.4 用目標網絡改進訓練 114

相關文獻 115

知識點小結 115

習題 116

第8章 帶基線的策略梯度方法 117

8.1 策略梯度中的基線 117

8.1.1 基線的引入 117

8.1.2 基線的直觀解釋 118

8.2 帶基線的REINFORCE算法 119

8.2.1 策略網絡和價值網絡 120

8.2.2 算法推導 121

8.2.3 訓練流程 121

8.3 advantage actor-critic 122

8.3.1 算法推導 123

8.3.2 訓練流程 125

8.3.3 用目標網絡改進訓練 126

8.4 證明帶基線的策略梯度定理 127

知識點小結 128

習題 128

第9章 策略學習高級技巧 129

9.1 置信域策略優化 129

9.1.1 置信域方法 129

9.1.2 策略學習的目標函數 132

9.1.3 算法推導 133

9.1.4 訓練流程 135

9.2 策略學習中的熵正則 135

相關文獻 138

知識點小結 138

第 10章 連續控制 139

10.1 連續空間的離散化 139

10.2 深度確定性策略梯度 140

10.2.1 策略網絡和價值網絡 140

10.2.2 算法推導 142

10.3 深入分析DDPG 145

10.3.1 從策略學習的角度看待DDPG 145

10.3.2 從價值學習的角度看待DDPG 146

10.3.3 DDPG的高估問題 147

10.4 雙延遲深度確定性策略梯度 148

10.4.1 高估問題的解決方案——目標網絡 148

10.4.2 高估問題的解決方案——截斷雙Q學習 148

10.4.3 其他改進點 149

10.4.4 訓練流程 150

10.5 隨機高斯策略 151

10.5.1 基本思路 152

10.5.2 隨機高斯策略網絡 153

10.5.3 策略梯度 154

10.5.4 用REINFORCE學習參數 155

10.5.5 用actor-critic學習參數 155

相關文獻 157

知識點小結 157

第 11章 對狀態的不完全觀測 158

11.1 不完全觀測問題 158

11.2 循環神經網絡 159

11.3 基於RNN的策略網絡 161

相關文獻 162

知識點小結 163

習題 163

第 12章 模仿學習 165

12.1 行為克隆 165

12.1.1 連續控制問題 165

12.1.2 離散控制問題 166

12.1.3 行為克隆與強化學習的對比 168

12.2 逆向強化學習 169

12.2.1 IRL的基本設定 169

12.2.2 IRL的基本思想 170

12.2.3 從黑箱策略反推獎勵 170

12.2.4 用獎勵函數訓練策略網絡 171

12.3 生成判別模仿學習 171

12.3.1 生成判別網絡 172

12.3.2 GAIL的生成器和判別器 175

12.3.3 GAIL的訓練 176

相關文獻 178

知識點小結 179

第四部分 多智能體強化學習

第 13章 並行計算 182

13.1 並行計算基礎 182

13.1.1 並行梯度下降 182

13.1.2 MapReduce 183

13.1.3 用 MapReduce實現並行梯度下降 184

13.1.4 並行計算的代價 187

13.2 同步與異步 188

13.2.1 同步算法 188

13.2.2 異步算法 189

13.2.3 同步梯度下降與異步梯度下降的對比 191

13.3 並行強化學習 191

13.3.1 異步並行雙Q學習 191

13.3.2 A3C:異步並行A2C 193

相關文獻 195

知識點小結 195

習題 196

第 14章 多智能體系統 197

14.1 常見設定 197

14.2 基本概念 199

14.2.1 專業術語 199

14.2.2 策略網絡 200

14.2.3 動作價值函數 200

14.2.4 狀態價值函數 201

14.3 實驗環境 202

14.3.1 multi-agent particle world 202

14.3.2 StarCraft multi-agent challenge 204

14.3.3 Hanabi Challenge 205

相關文獻 206

知識點小結 206

第 15章 完全合作關系設定下的多智能體強化學習 207

15.1 完全合作關系設定下的策略學習 208

15.2 完全合作關系設定下的多智能體A2C 209

15.2.1 策略網絡和價值網絡 209

15.2.2 訓練和決策 211

15.2.3 實現中的難點 212

15.3 三種架構 213

15.3.1 中心化訓練+中心化決策 214

15.3.2 去中心化訓練+去中心化決策 215

15.3.3 中心化訓練+去中心化決策 217

相關文獻 219

知識點小結 220

習題 220

第 16章 非合作關系設定下的多智能體強化學習 221

16.1 非合作關系設定下的策略學習 222

16.1.1 非合作關系設定下的目標函數 222

16.1.2 收斂的判別 223

16.1.3 評價策略的優劣 223

16.2 非合作關系設定下的多智能體A2C 224

16.2.1 策略網絡和價值網絡 224

16.2.2 算法推導 225

16.2.3 訓練 226

16.2.4 決策 227

16.3 三種架構 227

16.3.1 中心化訓練+中心化決策 227

16.3.2 去中心化訓練+去中心化決策 228

16.3.3 中心化訓練+去中心化決策 229

16.4 連續控制與MADDPG 231

16.4.1 策略網絡和價值網絡 231

16.4.2 算法推導 232

16.4.3 中心化訓練 234

16.4.4 去中心化決策 236

相關文獻 237

知識點小結 237

第 17章 註意力機制與多智能體強化學習 238

17.1 自註意力機制 238

17.1.1 自註意力層 239

17.1.2 多頭自註意力層 241

17.2 自註意力改進多智能體強化學習 242

17.2.1 不使用自註意力的狀態價值網絡 242

17.2.2 使用自註意力的狀態價值網絡 243

17.2.3 使用自註意力的動作價值網絡 244

17.2.4 使用自註意力的中心化策略網絡 244

17.2.5 總結 245

相關文獻 245

知識點小結 245

習題 246

第五部分 應用與展望

第 18章 AlphaGo與蒙特卡洛樹搜索 248

18.1 強化學習眼中的圍棋 248

18.2 蒙特卡洛樹搜索 250

18.2.1 MCTS的基本思想 250

18.2.2 MCTS的四個步驟 250

18.2.3 MCTS的決策 255

18.3 訓練策略網絡和價值網絡 255

18.3.1 AlphaGo 2016版本的訓練 256

18.3.2 AlphaGo Zero版本的訓練 258

相關文獻 260

知識點小結 260

習題 261

第 19章 現實世界中的應用 262

19.1 神經網絡結構搜索 262

19.1.1 超參數和交叉驗證 262

19.1.2 強化學習方法 264

19.2 自動生成SQL語句 266

19.3 推薦系統 268

19.4 網約車調度 270

19.4.1 價值學習 271

19.4.2 派單機制 271

19.5 強化學習與監督學習的對比 273

19.5.1 決策是否改變環境 273

19.5.2 當前獎勵還是長線回報 274

19.6 制約強化學習落地應用的因素 275

19.6.1 所需的樣本數量過大 275

19.6.2 探索階段代價太大 276

19.6.3 超參數的影響非常大 277

19.6.4 穩定性極差 278

知識點小結 279

附錄A 貝爾曼方程 281

附錄B 習題答案 283

參考文獻 288