Deep Reinforcement Learning

Plaat, Aske

  • 出版商: Springer
  • 出版日期: 2022-06-12
  • 售價: $2,360
  • 貴賓價: 9.5$2,242
  • 語言: 英文
  • 頁數: 424
  • 裝訂: Quality Paper - also called trade paper
  • ISBN: 9811906378
  • ISBN-13: 9789811906374
  • 相關分類: ReinforcementDeepLearning
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

Contents1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 What is Deep Reinforcement Learning? . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Three Machine Learning Paradigms . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3 Overview of the Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 Tabular Value-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.1 Sequential Decision Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Tabular Value-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.3 Classic Gym Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603 Approximating the Value Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.1 Large, High-Dimensional, Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.2 Deep Value-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.3 Atari 2600 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874 Policy-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.1 Continuous Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.2 Policy-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.3 Locomotion and Visuo-Motor Environments . . . . . . . . . . . . . . . . . . . . 1114.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1154.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1165 Model-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1195.1 Dynamics Models of High-Dimensional Problems . . . . . . . . . . . . . . . 1225.2 Learning and Planning Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.3 High-dimensional Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1365.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142viiviii CONTENTS5.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1446 Two-Agent Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1476.1 Two-Agent Zero-Sum Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1506.2 Tabula Rasa Self-Play Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1566.3 Self-Play Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1786.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1866.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1887 Multi-Agent Reinforcement Learning . . . .

商品描述(中文翻譯)

目錄
1 簡介................................................................. 1
1.1 什麼是深度強化學習?.......................................... 1
1.2 三種機器學習範式.................................................. 12
1.3 本書概述.......................................................... 17
2 表格值基礎方法.................................................... 23
2.1 連續決策問題.................................................... 25
2.2 表格值基礎代理.................................................. 27
2.3 經典 Gym 環境.................................................. 55
2.4 總結與進一步閱讀.............................................. 57
2.5 練習題............................................................ 60
3 近似值函數.......................................................... 63
3.1 大型、高維問題.................................................. 66
3.2 深度值基礎代理.................................................. 69
3.3 Atari 2600 環境.................................................. 83
3.4 總結與進一步閱讀.............................................. 86
3.5 練習題............................................................ 87
4 基於策略的方法.................................................... 89
4.1 連續問題.......................................................... 91
4.2 基於策略的代理.................................................. 94
4.3 移動和視覺運動環境.......................................... 111
4.4 總結與進一步閱讀............................................ 115
4.5 練習題.......................................................... 116
5 基於模型的方法.................................................... 119
5.1 高維問題的動態模型.......................................... 122
5.2 學習和規劃代理.................................................. 123
5.3 高維環境.......................................................... 136
5.4 總結與進一步閱讀............................................ 142
5.5 練習題.......................................................... 144
6 雙代理強化學習.................................................... 147
6.1 雙代理零和問題.................................................. 150
6.2 Tabula Rasa 自我對弈代理.................................... 156
6.3 自我對弈環境.................................................... 178
6.4 總結與進一步閱讀............................................ 186
6.5 練習題.......................................................... 188
7 多代理強化學習....................................................