深度強化學習 Deep Reinforcement Learning

Aske Plaat 殷海英 譯

  • 深度強化學習-preview-1
  • 深度強化學習-preview-2
  • 深度強化學習-preview-3
深度強化學習-preview-1

買這商品的人也買了...

商品描述

"  近年來,深度強化學習成為關註的熱點。在自動駕駛、棋牌游戲、分子重排和機器人等領域,電腦程序能夠通過強化學習,理解以前被視為超級困難的問題,取得了令人矚目的成果。在圍棋比賽中,AlphaGo接連戰勝樊麾、李世石和柯潔等人類冠軍。深度強化學習從生物學和心理學領域的研究中受到啟發。生物學激發了人工神經網絡和深度學習的出現,而心理學研究人和動物如何學習,如何通過正負刺激來強化目標行為。瞭解了強化學習如何指導機器人行走時,我們不禁聯想到兒童如何在玩中學習。動物行為和大腦結構可作為新的科學和工程藍圖。電腦似乎真正具備了人類的某些行為特徵,深度強化學習技術成為實現AI夢想的核心。   教育界也十分重視深度強化學習的研究進展。許多大學開設了深度強化學習課程。本書恰到好處地介紹了深度強化學習領域的技術細節,可作為AI研究生課程的教材。本書講解全面,涵蓋深度Q-learning的基本算法,乃至多智能體強化學習和元學習等高級主題。 "

目錄大綱

目    錄

 

第1章  簡介 1

1.1  什麽是深度強化學習 1

1.1.1  深度學習 2

1.1.2  強化學習 2

1.1.3  深度強化學習 3

1.1.4  應用 3

1.1.5  四個相關領域 6

1.2  三種機器學習範式 10

1.2.1  監督學習 12

1.2.2  無監督學習 13

1.2.3  強化學習 14

1.3  本書概述 15

1.3.1  預備知識 16

1.3.2  本書結構 17

第2章  表格值為基礎的強化學習 21

2.1  序貫決策問題 22

2.1.1  網格世界 23

2.1.2  迷宮和盒子謎題 23

2.2  基於表格值的智能體 24

2.2.1  智能體和環境 25

2.2.2  馬爾可夫決策過程 25

2.2.3  MDP目標 31

2.2.4  MDP問題的解決方法 35

2.3  經典的Gym環境 50

2.3.1  Mountain car和Cartpole 50

2.3.2  路徑規劃與棋盤游戲 51

2.4  本章小結 51

2.5  擴展閱讀 53

2.6  練習 53

2.6.1  復習題 53

2.6.2  練習題 54

第3章  基於值的深度強化學習 57

3.1  大規模、高維度問題 60

3.1.1  Atari街機游戲 60

3.1.2  實時戰略游戲和視頻游戲 62

3.2  深度值函數智能體 62

3.2.1  利用深度學習對大規模問題進行泛化 62

3.2.2  三個挑戰 65

3.2.3  穩定的基於值的深度學習 67

3.2.4  提升探索能力 72

3.3  Atari 2600環境 75

3.3.1  網絡結構 76

3.3.2  評估Atari游戲表現 76

3.4  本章小結 77

3.5  擴展閱讀 78

3.6  習題 78

3.6.1  復習題 78

3.6.2  練習題 79

第4章  基於策略的強化學習 81

4.1  連續問題 82

4.1.1  連續策略 82

4.1.2  隨機策略 83

4.1.3  環境:Gym和MuJoCo 83

4.2  基於策略的智能體 86

4.2.1  基於策略的算法:

REINFORCE 86

4.2.2  基於策略的方法中的偏差-方差權衡 89

4.2.3  演員-評論家“自舉”方法 90

4.2.4  基線減法與優勢函數 92

4.2.5  信任域優化 95

4.2.6  熵和探索 96

4.2.7  確定性策略梯度 98

4.2.8  實際操作:MuJoCo中的PPO和DDPG示例 100

4.3  運動與視覺-運動環境 101

4.3.1  機器人運動 102

4.3.2  視覺-運動交互 103

4.3.3  基準測試 104

4.4  本章小結 105

4.5  擴展閱讀 105

4.6  習題 106

4.6.1  復習題 106

4.6.2  練習題 107

第5章  基於模型的強化學習 109

5.1  高維問題的動態模型 111

5.2  學習與規劃智能體 112

5.2.1  學習模型 117

5.2.2  使用模型進行規劃 121

5.3  高維度環境 126

5.3.1  基於模型的實驗概覽 126

5.3.2  小型導航任務 127

5.3.3  機器人應用 127

5.3.4  Atari游戲應用 128

5.3.5  實際操作:PlaNet示例 129

5.4  本章小結 130

5.5  擴展閱讀 132

5.6  習題 132

5.6.1  復習題 132

5.6.2  練習題 133

第6章  雙智能體自對弈 135

6.1  雙智能體的“零和問題” 138

6.1.1  困難的圍棋游戲 140

6.1.2  AlphaGo的成就 142

6.2  空白板自我對弈智能體 144

6.2.1  棋步級別的自我對弈 147

6.2.2  示例級別的自我對弈 157

6.2.3  錦標賽級別的自我對弈 159

6.3  自我對弈環境 162

6.3.1  如何設計世界級圍棋程序 163

6.3.2  AlphaGo Zero的性能表現 164

6.3.3  AlphaZero 166

6.3.4  自我對弈開放框架 167

6.3.5  在PolyGames中實例化Hex游戲 168

6.4  本章小結 170

6.5  擴展閱讀 171

6.6  習題 172

6.6.1  復習題 172

6.6.2  練習題 173

第7章  多智能體強化學習 175

7.1  多智能體問題 177

7.1.1  競爭行為 179

7.1.2  合作行為 179

7.1.3  混合行為 181

7.1.4  挑戰 183

7.2  多智能體強化學習智能體 184

7.2.1  競爭性行為 185

7.2.2  合作行為 187

7.2.3  混合行為 190

7.3  多智能體環境 194

7.3.1  競爭行為:撲克 195

7.3.2  合作行為:捉迷藏 196

7.3.3  混合行為:奪旗比賽和星際爭霸 198

7.3.4  實際操作:體育館中的捉迷藏示例 200

7.4  本章小結 201

7.5  擴展閱讀 202

7.6  習題 203

7.6.1  復習題 203

7.6.2  練習題 204

第8章  分層強化學習 205

8.1  問題結構的粒度 206

8.1.1  優點 207

8.1.2  缺點 207

8.2  智能體的分而治之 208

8.2.1  選項框架 208

8.2.2  尋找子目標 209

8.2.3  分層算法概述 210

8.3  分層環境 214

8.3.1  四個房間和機器人任務 214

8.3.2  蒙特祖瑪的復仇 215

8.3.3  多智能體環境 217

8.3.4  實際操作示例:分層演員-評論家 217

8.4  本章小結 219

8.5  擴展閱讀 220

8.6  習題 220

8.6.1  復習題 220

8.6.2  練習題 221

第9章  元學習 223

9.1  學會與學習相關的問題 225

9.2  遷移學習與元學習智能體 226

9.2.1  遷移學習 227

9.2.2  元學習 231

9.3  元學習環境 238

9.3.1  圖像處理 239

9.3.2  自然語言處理 240

9.3.3  元數據集 240

9.3.4  元世界 241

9.3.5  Alchemy 242

9.3.6  實際操作:Meta-World示例 242

9.4  本章小結 244

9.5  擴展閱讀 244

9.6  習題 245

9.6.1  復習題 245

9.6.2  練習題 245

第10章  未來發展 247

10.1  深度強化學習的發展 247

10.1.1  表格方法 247

10.1.2  無模型深度學習 248

10.1.3  多智能體方法 248

10.1.4  強化學習的演化歷程 249

10.2  主要挑戰 249

10.2.1  潛在模型 250

10.2.2  自我對弈 250

10.2.3  分層強化學習 251

10.2.4  遷移學習和元學習 251

10.2.5  種群化方法 252

10.2.6  探索與內在動機 252

10.2.7  可解釋的人工智能 253

10.2.8  泛化 253

10.3  人工智能的未來 254

—以下內容可掃描封底二維碼下載—

附錄A  數學背景知識 255

附錄B  深度監督學習 269

附錄C  深度強化學習套件 299

參考文獻 303