深度強化學習:入門與實踐指南 Deep Reinforcement Learning Hands-On

Maxim Lapan 王靜怡,劉斌程

買這商品的人也買了...

商品描述

迅速理解深度強化學原理到算法全面探索。
關於強化學資料很多,但多數過於專業和抽象,很不容易理解,並且從理解原理到可以實際解決問題之間還有巨大差距,
而本書意在填補強化學在實用性和結構化信息方面的不足,以幫助讀者從整體上輕鬆理解深度強化學時本書的另一個特點是面向實踐,
從簡單到復雜,將每種方法實際應用在各種具體環境中,以幫助讀者在實際研究和工作中應用深度強化學決問題。
本書適合深度強化學器學工智能相關行業的從業者、學讀參考。

目錄大綱

目錄
原書前言
第1章什麼是強化學r/> 1.1學督、無監督和強化
1.2 RL形式和關係
1.2.1獎勵
1.2.2智能體
1.2.3環境
1.2.4動作
1.2.5觀察
1.3馬爾可夫決策過程簡介
1.3.1馬爾可夫過程
1.3.2馬爾可夫獎勵過程
1.3.3馬爾可夫決策過程
1.4本章小結

第2章OpenAI Gym開台
2.1智能體剖析
2.2硬件和軟件要求
2.3 OpenAI Gym API
2.3.1動作空間
2.3.2觀察空間
2.3.3環境
2.3.4創建環境
2.3.5 CartPole會話
2.4隨機CartPole智能體
2.5額外的G能—Wrapper和Monitor
2.5.1 Wrapper
2.5.2 Monitor
2.6本章小結

第3章使用PyTorc行深度學r/> 3.1張量
3.1.1創建張量
3.1.2標量張量
3.1.3張量作
3.1.4 GPU張量
3.2梯度
3.2.1張量和梯度
3.3 NN構建塊
3.4定制層級
3.5最終的黏合劑—損失函數和優化器
3.5.1損失函數
3.5.2優化器
3.6使用TensorBoard監控
3.6.1 TensorBoard簡介
3.6.2繪圖工具
3.7示例:在Atari圖像上使用GAN
3.8本章小結

第4章交叉熵方法
4.1 RL方法的分類
4.2實踐交r/> 4.3 CartPole上的交叉熵方法
4.4 FrozenLake上的交叉熵方法
4.5交叉熵方法的理論背景
4.6本章小結

第5章表格學ellman方程
5.1值、狀態、性
5.2的Bellman方程
5.3動作的值
5.4值迭代法
5.5實踐中的值迭代
5.6 FrozenLake中的Q-learning
5.7本章小結

第6章深度Q網絡
6.1現實中的值迭代
6.2表格式Q-learning
6.3深度Q-learning
6.3.1與環境的交互
6.3.2 SGD優化
6.3.3步驟之間的相關性
6.3.4馬爾可夫性
6.3.5 DQN訓練的最終形式
6.4 Pong上的DQN
6.4.1封裝
6.4.2 DQN模型
6.4.3訓練
6.4.4運行與性能
6.4.5動作中的模型
6.5本章小結

第7章DQN擴展
7.1 PyTorch Agent Net函數庫
7.1.1智能體
7.1.2智能體的經驗
7.1.3經驗緩衝區
7.1.4 Gym env封裝
7.2基本DQN
7.3 N步DQN
7.3.1實現
7.4雙DQN
7.4.1實現
7.4.2結果
7.5有噪網絡
7.5.1實現
7.5.2結果
7.6優先級重放緩衝區
7.6.1實現
7.6.2結果
7.7競爭DQN
7.7.1實現
7.7.2結果
7.8分類
7.8.1實現
7.8.2結果
7.9結合所有
7.9.1實現
7.9.2結果
7.10本章小結
參考文獻

第8章RL用於股票交易
8.1貿易
8.2數據
8.3問題陳述和關鍵決策
8.4交易環境
8.5模型
8.6訓練代碼
8.7結果
8.7.1前饋模型
8.7.2卷積模型
8.8要嘗試的事
8.9本章小結

第9章策略梯度法:一種替代方案
9.1值與策略
9.1.1為什麼是策略
9.1.2策略表示
9.1.3策略梯度
9.2強化方法
9.2.1 CartPole的例子
9.2.2結果
9.2.3基於策略的方法與基於值的方法
9.3強化問題
9.3.1完整episode是必需的
9.3.2高梯度方差
9.3.3探索
9.3.4樣本之間的相關性
9.4 CartPole上的PG
9.5 Pong上的PG
9.6本章小結

第10章Actor-Critic方法
10.1方差減少
10.2 CartPole方差
10.3 Actor-Critic
10.4 Pong上的A2C
10.5 Pong上的A2C的結果
10.6調整超參數
10.6. 1學br/> 10.6.2熵beta
10.6.3環境數量
10.6.4 batch大小
10.7本章小結

第11章異步優勢Actor-Critic方法
11.1相關性和样本效率
11.2在A2C中添加另一個A
11.3 Python中的多處理
11.4 A3C—數據並行
11.5 A3C—梯度並行
11.6本章小結

第12章用RL訓練聊天機器人
12.1聊天機器人概述
12.2 Deep NLP基礎知識
12.2.1 RNN
12.2.2嵌入
12.2.3編碼器-解碼器
12.3 seq2seq訓練
12.3.1對數似然訓練
12.3.2雙語評估替補(BLEU)得分
12.3.3 seq2seq中的RL
12.3.4自我評價序列訓練
12.4聊天機器人示例
12.4.1示例結構
12.4.2模塊:cornell.py和data.py
12.4.3 BLEU得分和utils.py
12.4.4模型
12.4.5訓練:交r/> 12.4.6執行訓練
12.4.7檢查數據
12.4.8測試訓練的模型
12.4.9訓練:SCST
12.4.10運行SCST訓練
12.4. 11結果
12.4.12電報機器人
12.5本章小結

第13章Web瀏覽
13.1網頁瀏覽
13.1.1瀏覽器自動化作和強化學r/> 13.1.2 Mini World of Bits基準
13.2 OpenAI Univerr/> 13.2.1安裝
13.2.2動作和觀察
13.2.3環境創建
13.2.4 MiniWoB穩定性
13.3簡單的點擊方式
13.3.1網格動作
13.3.2示例概述
13.3.3模型
13.3.4訓練代碼
13.3.5啟動容器
13.3.6訓練過程
13.3.7檢查學到的策略
13.3.8簡單點擊的問題
13.4人工演示
13.4.1記錄演示
13.4.2錄製格式
13.4.3使用演行訓練
13.4.4結果
13.4.5 TicTacToe問題
13.5增加文本描述
13.6要嘗試的事情
13.7本章小結

第14章連續動作空間
14.1為什麼是連續空間
14.2動作空間
14.3環境
14.4 Actor-Critic(A2C)方法
14.4.1實現
14.4.2結果
14.4.3使用模型和錄製
14.5確定性策略梯度
14.5.1探索
14.5.2實現
14.5.3結果
14.5.4錄製
14.6分佈式策略梯度
14.6.1架構
14.6.2實現
14.6.3結果
14.7需一步嘗試的事情
14.8本章小結

第15章信賴域—TRPO、PPO和ACKTR
15.1引言
15.2 roboschool
15.3 A2C基線
15.3.1結果
15.3.2錄製
15.4 PPO
15.4.1實現
15.4.2結果
15.5 TRPO
15.5.1實現
15.5.2結果
15.6使用ACKTR的A2C
15.6.1實現
15.6.2結果
15.7本章小結

第16章RL中的黑盒優化
16.1黑盒方法
16.2化策略
16.2.1 CartPole上的ES
16.2.2 HalfCheetah上的ES
16.3遺傳算法
16.3.1 CartPole上的GA
16.3.2 GA調整
16.3.3 Cheetah上的GA
16.4本章小結
參考文獻

第17章無模型—想像力
17.1基於模型與無模型
17.2模型缺陷
17.3想像力增強的智能體
17.3.1環境模型
17.3.2走步策略
17.3 .3走步編碼器
17.3.4論文結果
17.4 Atari Breakout上的I2A
17.4.1基線A2C智能體
17.4.2環境模型訓練
17.4.3想像力智能體
17.5實驗結果
17.5.1基線智能體
17.5.2訓練環境模型權重
17.5.3使用I2A模行訓練
17.6本章小結
參考文獻

第18章AlphaGo Zero
18.1棋盤遊戲
18.2 AlphaGo Zero方法
18.2.1概述
18.2.2 MCTS
18.2.3自玩
18.2.4訓練和評估
18.3 Connect4機器人
18.3.1遊戲模型
18.3.2實現MCTS
18.3 .3模型
18.3.4訓練
18.3.5測試和比較
18.4 Connect4結果
18.5本章小結
參考文獻
本書總結