深度強化學習 Deep Reinforcement Learning

[荷蘭] 阿斯克·普拉特（Aske Plaat）著殷海英譯殷海英譯

預覽內頁

出版商: 清華大學
出版日期: 2024-06-01
售價: $479
貴賓價: 9.5 折 $455
語言: 簡體中文
頁數: 254
ISBN: 7302659796
ISBN-13: 9787302659792
相關分類: Reinforcement、化學 Chemistry
此書翻譯自: Deep Reinforcement Learning

立即出貨 (庫存 < 3)

買這商品的人也買了...

~~$880~~ $695

TinyML｜TensorFlow Lite 機器學習 : 應用 Arduino 與低耗電微控制器 (Tinyml: Machine Learning with Tensorflow Lite on Arduino and Ultra-Low-Power Microcontrollers)
~~$1,000~~ $850

深度強化式學習 (Deep Reinforcement Learning in Action)
~~$1,200~~ $948

Reinforcement Learning｜強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)
$849

神經網絡與深度學習
~~$6,370~~ $6,243

Quantum Mechanics, Volume 1: Basic Concepts, Tools, and Applications (Hardcover)
$3,240

Computer Vision: Algorithms and Applications 2/e (Hardcover)
~~$5,340~~ $5,073

Quantum Mechanics, Volume 3: Fermions, Bosons, Photons, Correlations, and Entanglement (Hardcover)
~~$6,230~~ $6,105

Quantum Mechanics, Volume 2: Angular Momentum, Spin, and Approximation Methods (Hardcover)
~~$1,200~~ $948

開發者傳授 PyTorch 秘笈
$658

深度學習與信號處理：原理與實踐
~~$779~~ $740

深度強化學習
~~$1,000~~ $790

理論到實作都一清二楚 - 機器學習原理深究
~~$588~~ $559

強化學習與機器人控制
~~$4,200~~ $3,990

5G/5G-Advanced: The New Generation Wireless Access Technology, 3/e (Paperback)
$521

基於 GPT-3、ChatGPT、GPT-4 等 Transformer 架構的自然語言處理
~~$980~~ $774

新範式來臨 - 用 PyTorch 了解 LLM 開發微調 ChatGLM 全過程
~~$2,260~~ $2,215

Foundations of Computer Vision (Hardcover)
$559

進化深度學習
$774

算力芯片 — 高性能 CPU / GPU / NPU 微架構分析
~~$880~~ $695

Python 自學聖經：從程式素人到開發強者的技術、實戰與 AI 應用大全, 3/e (附影音/範例程式)
~~$1,080~~ $853

LLM 原理完整回顧 - 大型語言模型整體脈絡最詳細剖析
~~$680~~ $537

讓 AI 好好說話！從頭打造 LLM (大型語言模型) 實戰秘笈
~~$880~~ $695

問 ChatGPT 也不會的 Python 量化交易聖經 - 從分析到真實交易一本全會
~~$620~~ $484

你的第一本 Git 與 GitHub 入門書：輕鬆實作本機與遠端儲存庫的版本控制
~~$500~~ $390

一本書讀懂 DeepSeek：AI 巨頭競爭的新變數

商品描述

"　　近年來，深度強化學習成為關註的熱點。在自動駕駛、棋牌遊戲、分子重排和機器人等領域，電腦程序能夠通過強化學習，理解以前被視為超級困難的問題，取得了令人矚目的成果。在圍棋比賽中，AlphaGo接連戰勝樊麾、李世石和柯潔等人類冠軍。深度強化學習從生物學和心理學領域的研究中受到啟發。生物學激發了人工神經網絡和深度學習的出現，而心理學研究人和動物如何學習，如何通過正負刺激來強化目標行為。瞭解了強化學習如何指導機器人行走時，我們不禁聯想到兒童如何在玩中學習。動物行為和大腦結構可作為新的科學和工程藍圖。電腦似乎真正具備了人類的某些行為特徵，深度強化學習技術成為實現AI夢想的核心。　　教育界也十分重視深度強化學習的研究進展。許多大學開設了深度強化學習課程。本書恰到好處地介紹了深度強化學習領域的技術細節，可作為AI研究生課程的教材。本書講解全面，涵蓋深度Q-learning的基本算法，乃至多智能體強化學習和元學習等高級主題。 "

作者簡介

Aske Plaat是荷蘭萊頓大學的數據科學教授，兼任萊頓高級電腦科學研究所(LIACS)主任。Aske是萊頓數據科學中心(LCDS)的聯合創始人，發起了跨學科研究項目“社會、人工智能與生命科學”(SAILS)。Aske的研究領域包括強化學習、可擴展的組合推理算法、遊戲和自學習系統。

目錄大綱

第1章簡介 1

1.1 什麼是深度強化學習 1

1.1.1 深度學習 2

1.1.2 強化學習 2

1.1.3 深度強化學習 3

1.1.4 應用 3

1.1.5 四個相關領域 6

1.2 三種機器學習範式 10

1.2.1 監督學習 12

1.2.2 無監督學習 13

1.2.3 強化學習 14

1.3 本書概述 15

1.3.1 預備知識 16

1.3.2 本書結構 17

第2章表格值為基礎的強化學習 21

2.1 序貫決策問題 22

2.1.1 網格世界 23

2.1.2 迷宮和盒子謎題 23

2.2 基於表格值的智能體 24

2.2.1 智能體和環境 25

2.2.2 馬爾可夫決策過程 25

2.2.3 MDP目標 31

2.2.4 MDP問題的解決方法 35

2.3 經典的Gym環境 50

2.3.1 Mountain car和Cartpole 50

2.3.2 路徑規劃與棋盤遊戲 51

2.4 本章小結 51

2.5 擴展閱讀 53

2.6 練習 53

2.6.1 復習題 53

2.6.2 練習題 54

第3章基於值的深度強化學習 57

3.1 大規模、高維度問題 60

3.1.1 Atari街機遊戲 60

3.1.2 實時戰略遊戲和視頻遊戲 62

3.2 深度值函數智能體 62

3.2.1 利用深度學習對大規模問題進行泛化 62

3.2.2 三個挑戰 65

3.2.3 穩定的基於值的深度學習 67

3.2.4 提升探索能力 72

3.3 Atari 2600環境 75

3.3.1 網絡結構 76

3.3.2 評估Atari遊戲表現 76

3.4 本章小結 77

3.5 擴展閱讀 78

3.6 習題 78

3.6.1 復習題 78

3.6.2 練習題 79

第4章基於策略的強化學習 81

4.1 連續問題 82

4.1.1 連續策略 82

4.1.2 隨機策略 83

4.1.3 環境：Gym和MuJoCo 83

4.2 基於策略的智能體 86

4.2.1 基於策略的算法：

REINFORCE 86

4.2.2 基於策略的方法中的偏差-方差權衡 89

4.2.3 演員-評論家“自舉”方法 90

4.2.4 基線減法與優勢函數 92

4.2.5 信任域優化 95

4.2.6 熵和探索 96

4.2.7 確定性策略梯度 98

4.2.8 實際操作：MuJoCo中的PPO和DDPG示例 100

4.3 運動與視覺-運動環境 101

4.3.1 機器人運動 102

4.3.2 視覺-運動交互 103

4.3.3 基準測試 104

4.4 本章小結 105

4.5 擴展閱讀 105

4.6 習題 106

4.6.1 復習題 106

4.6.2 練習題 107

第5章基於模型的強化學習 109

5.1 高維問題的動態模型 111

5.2 學習與規劃智能體 112

5.2.1 學習模型 117

5.2.2 使用模型進行規劃 121

5.3 高維度環境 126

5.3.1 基於模型的實驗概覽 126

5.3.2 小型導航任務 127

5.3.3 機器人應用 127

5.3.4 Atari遊戲應用 128

5.3.5 實際操作：PlaNet示例 129

5.4 本章小結 130

5.5 擴展閱讀 132

5.6 習題 132

5.6.1 復習題 132

5.6.2 練習題 133

第6章雙智能體自對弈 135

6.1 雙智能體的“零和問題” 138

6.1.1 困難的圍棋遊戲 140

6.1.2 AlphaGo的成就 142

6.2 空白板自我對弈智能體 144

6.2.1 棋步級別的自我對弈 147

6.2.2 示例級別的自我對弈 157

6.2.3 錦標賽級別的自我對弈 159

6.3 自我對弈環境 162

6.3.1 如何設計世界級圍棋程序 163

6.3.2 AlphaGo Zero的性能表現 164

6.3.3 AlphaZero 166

6.3.4 自我對弈開放框架 167

6.3.5 在PolyGames中實例化Hex遊戲 168

6.4 本章小結 170

6.5 擴展閱讀 171

6.6 習題 172

6.6.1 復習題 172

6.6.2 練習題 173

第7章多智能體強化學習 175

7.1 多智能體問題 177

7.1.1 競爭行為 179

7.1.2 合作行為 179

7.1.3 混合行為 181

7.1.4 挑戰 183

7.2 多智能體強化學習智能體 184

7.2.1 競爭性行為 185

7.2.2 合作行為 187

7.2.3 混合行為 190

7.3 多智能體環境 194

7.3.1 競爭行為：撲克 195

7.3.2 合作行為：捉迷藏 196

7.3.3 混合行為：奪旗比賽和星際爭霸 198

7.3.4 實際操作：體育館中的捉迷藏示例 200

7.4 本章小結 201

7.5 擴展閱讀 202

7.6 習題 203

7.6.1 復習題 203

7.6.2 練習題 204

第8章分層強化學習 205

8.1 問題結構的粒度 206

8.1.1 優點 207

8.1.2 缺點 207

8.2 智能體的分而治之 208

8.2.1 選項框架 208

8.2.2 尋找子目標 209

8.2.3 分層算法概述 210

8.3 分層環境 214

8.3.1 四個房間和機器人任務 214

8.3.2 蒙特祖瑪的復仇 215

8.3.3 多智能體環境 217

8.3.4 實際操作示例：分層演員-評論家 217

8.4 本章小結 219

8.5 擴展閱讀 220

8.6 習題 220

8.6.1 復習題 220

8.6.2 練習題 221

第9章元學習 223

9.1 學會與學習相關的問題 225

9.2 遷移學習與元學習智能體 226

9.2.1 遷移學習 227

9.2.2 元學習 231

9.3 元學習環境 238

9.3.1 圖像處理 239

9.3.2 自然語言處理 240

9.3.3 元數據集 240

9.3.4 元世界 241

9.3.5 Alchemy 242

9.3.6 實際操作：Meta-World示例 242

9.4 本章小結 244

9.5 擴展閱讀 244

9.6 習題 245

9.6.1 復習題 245

9.6.2 練習題 245

第10章未來發展 247

10.1 深度強化學習的發展 247

10.1.1 表格方法 247

10.1.2 無模型深度學習 248

10.1.3 多智能體方法 248

10.1.4 強化學習的演化歷程 249

10.2 主要挑戰 249

10.2.1 潛在模型 250

10.2.2 自我對弈 250

10.2.3 分層強化學習 251

10.2.4 遷移學習和元學習 251

10.2.5 種群化方法 252

10.2.6 探索與內在動機 252

10.2.7 可解釋的人工智能 253

10.2.8 泛化 253

10.3 人工智能的未來 254

—以下內容可掃描封底二維碼下載—

附錄A 數學背景知識 255

附錄B 深度監督學習 269

附錄C 深度強化學習套件 299

參考文獻 303