強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e)

俞凱等著

出版商: 電子工業
出版日期: 2019-09-01
定價: $1,008
售價: 8.5 折 $857
語言: 簡體中文
ISBN: 7121295164
ISBN-13: 9787121295164
相關分類: Reinforcement
此書翻譯自: Reinforcement Learning: An Introduction, 2/e (Hardcover)
相關翻譯: Reinforcement Learning｜強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e) (繁中版)

銷售排行:

🥉 2019/10 簡體中文書銷售排行第 3 名

立即出貨

買這商品的人也買了...

$958

深度學習
$403

深入淺出強化學習 : 原理入門
$474

深入理解 TensorFlow 架構設計與實現原理
~~$1,750~~ $1,715

Reinforcement Learning: An Introduction, 2/e (Hardcover)
$403

Python 統計分析 (An Introduction to Statistics with Python: With Applications in the Life Sciences)
~~$1,000~~ $790

Deep learning 深度學習必讀 - Keras 大神帶你用 Python 實作 (Deep Learning with Python)
~~$520~~ $411

用 Python 實作強化學習｜使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)
$352

機器學習：算法背後的理論與優化
$465

統計學習方法, 2/e
$280

特徵工程入門與實踐 (Feature Engineering Made Easy)
$393

深度學習的數學
$454

TensorFlow 與自然語言處理應用
~~$500~~ $395

實戰人工智慧之深度強化學習｜使用 PyTorch x Python
$454

強化學習：原理與Python實現
$505

白話強化學習與 PyTorch
~~$780~~ $616

科班出身的 AI人必修課：OpenCV 影像處理使用 Python
~~$1,200~~ $948

深度學習 (Deep Learning)(繁體中文版)
~~$690~~ $345

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)
$556

電腦視覺與深度學習實戰：以 MATLAB、Python 為工具
~~$560~~ $442

深度學習｜使用 Keras (Advanced Deep Learning with Keras: Applying GANs and other new deep learning algorithms to the real world)
~~$750~~ $638

NumPy 高速運算徹底解說 - 六行寫一隻程式？你真懂深度學習？手工算給你看！
~~$690~~ $545

強者用 PyTorch：實作史上最經典 AI 範例
~~$580~~ $458

機器學習的數學基礎 : AI、深度學習打底必讀
~~$1,000~~ $850

tf.keras 技術者們必讀！深度學習攻略手冊
~~$780~~ $616

強化學習(RL)：使用 PyTorch 徹底精通 (有些許瑕疵,不影響閱讀)

商品描述

《強化學習（第2版）》作為強化學習思想的深度解剖之作，被某些公認為是一本強化學習基礎理論的經典著作。它從強化學習的基本思想出發，深入淺出又嚴謹細緻地介紹了馬爾可夫決策過程，蒙特卡洛方法，時序差分方法，同軌離軌策略等強化學習的基本概念和方法，並以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。

《強化學習（第2版）》適合所有對強化學習研究者的讀者閱讀，收藏。

作者簡介

編輯推薦

《強化學習（2版）》被業界公認為任何對人工智能領域感興趣的人員的書。

《強化學習（2版）》是被稱為“強化學習”的Richard Sutton在強化學習領域的開創性、奠基性著作。自1998年1版出版以來，一直是強化學習領域的經典導論性教材，培育了好幾代強化學習領域的研究人員。

在2版中，隨著強化學習來的蓬勃發展，作者補充了很多新的內容：人工神經網絡、蒙特卡洛樹搜索、平均收益大化……涵蓋了當今關鍵的核心算法和理論。不僅如此，作者還以真實世界的應用為例闡述了這些內容。

目錄大綱

第1章導論 1

1.1 強化學習 1

1.2 示例 4

1.3 強化學習要素 5

1.4 局限性與適用範圍 7

1.5 擴展實例：井字棋 8

1.6 本章小結 12

1.7 強化學習的早期歷史 13

第I部分錶格型求解方法 23

第2章多臂賭博機 25

2.1 一個k 臂賭博機問題 25

2.2 動作-價值方法 27

2.3 10 臂測試平臺 28

2.4 增量式實現 30

2.5 跟蹤一個非平穩問題 32

2.6 樂觀初始值 34

2.7 基於置信度上界的動作選擇 35

2.8 梯度賭博機算法 37

2.9 關聯搜索(上下文相關的賭博機) 40

2.10 本章小結 41

第3章有限馬爾可夫決策過程45

3.1 “智能體-環境”交互接口 45

3.2 目標和收益 51

3.3 回報和分幕 52

3.4 分幕式和持續性任務的統一表示法 54

3.5 策略和價值函數 55

3.6 優策略和優價值函數 60

3.7 優性和近似算法 65

3.8 本章小結 66

第4章動態規劃 71

4.1 策略評估(預測) 72

4.2 策略改進 75

4.3 策略疊代 78

4.4 價值疊代 80

4.5 異步動態規劃 83

4.6 廣義策略疊代 84

4.7 動態規劃的效率 85

4.8 本章小結 86

第5章蒙特卡洛方法 89

5.1 蒙特卡洛預測 90

5.2 動作價值的蒙特卡洛估計 94

5.3 蒙特卡洛控制 95

5.4 沒有試探性出發假設的蒙特卡洛控制 98

5.5 基於重要度採樣的離軌策略 101

5.6 增量式實現 107

5.7 離軌策略蒙特卡洛控制 108

5.8 ? 折扣敏感的重要度採樣 110

5.9 ? 每次決策型重要度採樣 112

5.10 本章小結 113

第6章時序差分學習 117

6.1 時序差分預測 117

6.2 時序差分預測方法的優勢 122

6.3 TD(0) 的優性 124

6.4 Sarsa：同軌策略下的時序差分控制 127

6.5 Q 學習：離軌策略下的時序差分控制 129

6.6 期望Sarsa 131

6.7 大化偏差與雙學習 133

6.8 遊戲、後位狀態和其他特殊例子 135

6.9 本章小結 136

第7章 n 步自舉法 139

7.1 n 步時序差分預測 140

7.2 n 步Sarsa 144

7.3 n 步離軌策略學習 146

7.4 ? 帶控制變量的每次決策型方法 148

7.5 不需要使用重要度採樣的離軌策略學習方法：n 步樹回溯算法 150

7.6 ? 一個統一的算法：n 步Q(σ) 153

7.7 本章小結 155

第8章基於表格型方法的規劃和學習 157

8.1 模型和規劃 157

8.2 Dyna：集成在一起的規劃、動作和學習 159

8.3 當模型錯誤的時候 164

8.4 優先遍歷 166

8.5 期望更新與採樣更新的對比 170

8.6 軌跡採樣 173

8.7 實時動態規劃 176

8.8 決策時規劃 179

8.9 啟發式搜索 180

8.10 預演算法 182

8.11 蒙特卡洛樹搜索 184

8.12 本章小結 187

8.13 I部分總結 188

第II部分錶格型近似求解方法 193

第9章基於函數逼近的同軌策略預測 195

9.1 價值函數逼近 195

9.2 預測目標(VE ) 196

9.3 隨機梯度和半梯度方法 198

9.4 線性方法 202

9.5 線性方法的特徵構造 207

9.5.1 多項式基 208

9.5.2 傅立葉基 209

9.5.3 粗編碼 212

9.5.4 瓦片編碼 214

9.5.5 徑向基函數 218

9.6 手動選擇步長參數 219

9.7 非線性函數逼近：人工神經網絡 220

9.8 小二乘時序差分 225

9.9 基於記憶的函數逼近 227

9.10 基於核函數的函數逼近 229

9.11 深入瞭解同軌策略學習：“興趣”與“強調” 230

9.12 本章小結 232

第10章基於函數逼近的同軌策略控制 239

10.1 分幕式半梯度控制 239

10.2 半梯度n 步Sarsa 242

10.3 平均收益：持續性任務中的新的問題設定 245

10.4 棄用折扣 249

10.5 差分半梯度n 步Sarsa 251

10.6 本章小結 252

第11章基於函數逼近的離軌策略方法 253

11.1 半梯度方法 254

11.2 離軌策略發散的例子 256

11.3 致命三要素 260

11.4 線性價值函數的幾何性質 262

11.5 對貝爾曼誤差做梯度下降 266

11.6 貝爾曼誤差是不可學習的 270

11.7 梯度TD 方法 274

11.8 強調TD 方法 278

11.9 減小方差 279

11.10 本章小結 280

第12章資格跡 283

12.1 λ-回報 284

12.2 TD(λ) 287

12.3 n-步截斷λ- 回報方法 291

12.4 重做更新：在線λ-回報算法 292

12.5 真實的在線TD(λ) 294

12.6 ? 蒙特卡洛學習中的荷蘭跡 296

12.7 Sarsa(λ) 298

12.8 變量λ 和γ 303

12.9 帶有控制變量的離軌策略資格跡 304

12.10 從Watkins 的Q(λ) 到樹回溯TB(λ) 308

12.11 採用資格跡保障離軌策略方法的穩定性 310

12.12 實現中的問題 312

12.13 本章小結 312

第13章策略梯度方法 317

13.1 策略近似及其優勢 318

13.2 策略梯度定理 320

13.3 REINFORCE：蒙特卡洛策略梯度 322

13.4 帶有基線的REINFORCE 325

13.5 “行動器-評判器”方法 327

13.6 持續性問題的策略梯度 329

13.7 針對連續動作的策略參數化方法 332

13.8 本章小結 333

第III部分錶格型深入研究 337

第14章心理學 339

14.1 預測與控制 340

14.2 經典條件反射 341

14.2.1 阻塞與高級條件反射 342

14.2.2 Rescorla-Wagner 模型 344

14.2.3 TD 模型 347

14.2.4 TD 模型模擬 348

14.3 工具性條件反射 355

14.4 延遲強化 359

14.5 認知圖 361

14.6 習慣行為與目標導向行為 362

14.7 本章小結 366

第15章神經科學 373

15.1 神經科學基礎 374

15.2 收益信號、強化信號、價值和預測誤差 375

15.3 收益預測誤差假說 377

15.4 多巴胺 379

15.5 收益預測誤差假說的實驗支持 382

15.6 TD 誤差/多巴胺對應 385

15.7 神經“行動器-評判器” 390

15.8 行動器與評判器學習規則 393

15.9 享樂主義神經元 397

15.10 集體強化學習 399

15.11 大腦中的基於模型的算法 402

15.12 成癮 403

15.13 本章小結 404

第16章應用及案例分析 413

16.1 TD-Gammon 413

16.2 Samuel 的跳棋程序 418

16.3 Watson 的每日雙倍投註 421

16.4 優化內存控制 424

16.5 人類級別的視頻遊戲 428

16.6 主宰圍棋遊戲 433

16.6.1 AlphaGo 436

16.6.2 AlphaGo Zero 439

16.7 個性化網絡服務 442

16.8 熱氣流滑翔 446

第17章前沿技術 451

17.1 廣義價值函數和輔助任務 451

17.2 基於選項理論的時序摘要 453

17.3 觀測量和狀態 456

17.4 設計收益信號 460

17.5 遺留問題 464

17.6 人工智能的未來 467

參考文獻 473