深度強化學習理論與實踐
龍強、章勝
- 出版商: 清華大學
- 出版日期: 2023-03-01
- 售價: $534
- 貴賓價: 9.5 折 $507
- 語言: 簡體中文
- ISBN: 7302625549
- ISBN-13: 9787302625544
-
相關分類:
Reinforcement、化學 Chemistry
立即出貨
買這商品的人也買了...
-
$780$741 -
$653蜂窩網信息融合定位理論與方法
-
$564強化學習
-
$407智能傳感器理論基礎及應用
-
$1,000$790 -
$449無線傳感器網絡定位技術
-
$509Python 實現 Web UI 自動化測試實戰:Selenium 3/4 + unittest/Pytest + GitLab + Jenkins
-
$454Vue.js 3 應用開發與核心源碼解析
-
$143群體智能
-
$505MindManager思維導圖與信息可視化官方標準教程
-
$779$740 -
$912圖神經網絡:基礎、前沿與應用
-
$250機器學習中的標記增強理論與應用研究
-
$250燒不死的鳥是鳳凰:12個步驟帶你重塑職業和生活
-
$407零基礎Python入門教程
-
$454剪映視頻剪輯從入門到精通 手機版
-
$403剪映視頻剪輯從入門到精通 電腦版
-
$854網絡智能化中的深度強化學習技術
-
$455Python 網絡爬蟲與數據分析從入門到實踐
-
$426Python辦公好輕松
-
$469多源不確定信息推理技術
-
$352模型和數據雙驅動的多波段圖像融合理論與方法
-
$490$387 -
$774$735 -
$680$537
商品描述
目錄大綱
目錄
本書源代碼
配套資源
第1章強化學習的模型(156min)
1.1強化學習簡介
1.1.1初識強化學習
1.1.2強化學習的歷史
1.1.3強化學習與機器學習的關系
1.2強化學習的模型
1.2.1強化學習基本模型和要素
1.2.2強化學習的執行過程
1.2.3強化學習的數學模型——馬爾可夫決策過程
1.2.4環境模型案例
1.3Gym介紹
1.3.1Gym簡介
1.3.2Gym安裝
1.3.3Gym的環境描述和案例
1.3.4在Gym中添加自編環境
1.3.5直接使用自編環境
第2章動態規劃法(231min)
2.1動態規劃法簡介
2.2值函數和貝爾曼方程
2.2.1累積折扣獎勵
2.2.2值函數
2.2.3貝爾曼方程
2.3策略評估
2.4策略改進
2.5最優值函數和最優策略
2.6策略迭代和值迭代
2.7動態規劃法求解強化學習案例
第3章蒙特卡羅法(211min)
3.1蒙特卡羅法簡介
3.2蒙特卡羅策略評估
3.2.1蒙特卡羅策略評估
3.2.2增量式蒙特卡羅策略評估
3.2.3蒙特卡羅策略評估案例
3.2.4蒙特卡羅和動態規劃策略評估的對比
3.3蒙特卡羅強化學習
3.3.1蒙特卡羅策略改進
3.3.2起始探索蒙特卡羅強化學習
3.3.3ε貪婪策略蒙特卡羅強化學習
3.3.4蒙特卡羅強化學習案例
3.4異策略蒙特卡羅強化學習
3.4.1重要性採樣
3.4.2異策略蒙特卡羅策略評估
3.4.3增量式異策略蒙特卡羅策略評估
3.4.4異策略蒙特卡羅強化學習
3.4.5異策略蒙特卡羅強化學習案例
3.5蒙特卡羅樹搜索
3.5.1MCTS的基本思想
3.5.2MCTS的算法流程
3.5.3基於MCTS的強化學習算法
3.5.4案例和代碼
第4章時序差分法(174min)
4.1時序差分策略評估
4.1.1時序差分策略評估原理
4.1.2時序差分策略評估算法
4.1.3時序差分策略評估案例
4.1.4時序差分策略評估的優勢
4.2同策略時序差分強化學習
4.2.1Sarsa算法
4.2.2Sarsa算法案例
4.3異策略時序差分強化學習
4.3.1Qlearning算法
4.3.2期望Sarsa算法
4.3.3Double Qlearning算法
4.3.4Qlearning算法案例
4.4n步時序差分強化學習
4.4.1n步時序差分策略評估
4.4.2nstep Sarsa算法
4.5TD(λ)算法
4.5.1前向TD(λ)算法
4.5.2後向TD(λ)算法
4.5.3Sarsa(λ)算法
第5章深度學習與PyTorch(275min)
5.1從感知機到神經網絡
5.1.1感知機模型
5.1.2感知機和布爾運算
5.2深度神經網絡
5.2.1網絡拓撲
5.2.2前向傳播
5.2.3訓練模型
5.2.4誤差反向傳播
5.3激活函數、損失函數和數據預處理
5.3.1激活函數
5.3.2損失函數
5.3.3數據預處理
5.4PyTorch深度學習軟件包
5.4.1數據類型及類型的轉換
5.4.2張量的維度和重組操作
5.4.3組裝神經網絡的模塊
5.4.4自動梯度計算
5.4.5訓練數據自由讀取
5.4.6模型的搭建、訓練和測試
5.4.7模型的保存和重載
5.5深度學習案例
5.5.1函數近似
5.5.2數字圖片識別
第6章值函數近似算法(195min)
6.1線性值函數近似算法
6.1.1線性值函數近似時序差分算法
6.1.2特徵函數
6.1.3線性值函數近似算法案例
6.2神經網絡值函數近似法
6.2.1DQN算法原理
6.2.2DQN算法
6.2.3DQN算法案例
6.3Double DQN(DDQN)算法
6.4Prioritized Replay DQN算法
6.4.1樣本優先級
6.4.2隨機優先級採樣
6.4.3樣本重要性權重參數
6.4.4Prioritized Replay DQN算法流程
6.4.5Prioritized Replay DQN算法案例
6.5Dueling DQN算法
6.5.1Dueling DQN算法原理
6.5.2Dueling DQN算法案例
第7章策略梯度算法(176min)
7.1策略梯度算法的基本原理
7.1.1初識策略梯度算法
7.1.2策略函數
7.1.3策略目標函數
7.1.4策略梯度算法的框架
7.1.5策略梯度算法的評價
7.2策略梯度定理
7.2.1離散型策略梯度定理
7.2.2連續型策略梯度定理
7.2.3近似策略梯度和評價函數
7.3蒙特卡羅策略梯度算法(REINFORCE)
7.3.1REINFORCE的基本原理
7.3.2REINFORCE的算法流程
7.3.3REINFORCE隨機梯度的嚴格推導
7.3.4帶基線函數的REINFORCE
7.3.5REINFORCE實際案例及代碼實現
7.4演員評論家策略梯度算法
7.4.1算法原理
7.4.2算法流程
7.4.3算法代碼及案例
第8章策略梯度法進階(135min)
8.1異步優勢演員: 評論家算法
8.1.1異步強化學習
8.1.2A3C算法
8.1.3A2C算法
8.1.4案例和程序
8.2深度確定性策略梯度算法
8.2.1DDPG的基本思想
8.2.2DDPG的算法原理
8.2.3DDPG的算法結構和流程
8.2.4案例和程序
8.3近端策略優化算法
8.3.1PPO的算法原理
8.3.2PPO的算法結構和流程
8.3.3案例和程序
8.4柔性演員評論家算法
8.4.1最大熵原理
8.4.2柔性Q學習
8.4.3SAC算法原理
8.4.4SAC算法結構和流程
8.4.5案例和程序
第9章深度強化學習案例: AlphaGo系列算法
9.1AlphaGo算法介紹
9.1.1AlphaGo中的深度神經網絡
9.1.2AlphaGo中深度神經網絡的訓練
9.1.3AlphaGo的MCTS
9.1.4總結
9.2AlphaGo Zero算法介紹
9.2.1AlphaGo Zero的策略價值網絡
9.2.2AlphaGo Zero的MCTS
9.2.3AlphaGo Zero的算法流程
9.3AlphaZero算法介紹
9.3.1從圍棋到其他棋類需要解決的問題
9.3.2AlphaZero相對於AlphaGo Zero的改進與調整
9.3.3AlphaZero的算法流程
9.4MuZero算法介紹
9.4.1MuZero中的深度神經網絡
9.4.2MuZero中的MCTS
9.4.3MuZero的算法流程
9.5AlphaGo系列算法的應用與啟示
參考文獻