強化學習演算法入門

曾我部東馬

買這商品的人也買了...

商品描述

身為一個戰勝圍棋世界的人工智慧機器人AlphaGo,我們知道其主要運作原理是深度學習。
隨著AlphaGo Zero和Alpha Zero的相繼發布,作為機器學習經典演算法之一的強化學習在人工智慧領域受到了更多的關注。
《強化學習演算法入門》就用簡單易懂的語言,按照「原理-公式-程序」的方式對強化學習的基礎知識進​​行了詳細講解。
書中先讓大家從熟悉的「平均值計算」作為切入點學習強化學習的基本概念,然後結合實例學習了函數近似方法、
深度強化學習的原理和方法等,比較了各算法的特徵和應用,並以Python和MATLAB兩種語言進行了程式實作。
《強化學習演算法入門》內容豐富,實踐性強,
特別適合大學人工智慧相關專業學生,機器學習、深度學習工程師學習強化學習演算法。

目錄大綱

第1章基於「平均」的強化學習的基本概念
1.0 簡介
1.1 平均值與期望值
1.1.1 平均值
1.1.2 期望值
1.1.3 期望值與平均值的關係
1.2 平均值與價值
總結
1.3 平均值與馬可夫性
1.3.1 平均值的計算公式及其變形
1.3.2 逐次平均值表達和MP
1.4 用平均值推導貝爾曼方程式
1.4.1 平均值表達和價值函數的引入
1.4.2 決策型貝爾曼方程式的推導
1.4.3 機率型貝爾曼方程式的推導
1.5 蒙特卡羅方法的平均值推導
1.5.1 總獎勵函數G(St)的引入
1.5.2 總獎勵函數G(St)與價值函數V(St)的比較
1.5.3 總獎勵函數G(St)平均值的價值函數v(St)
1.6 用平均值推導TD方法
1.6.1 TD(0) 方法的計算公式的推導
1.6.2 TD(n)方法的計算公式的推導
總結
第2章強化學習中演算法的特性與應用
2.0 簡介
2.1 強化學習中的策略(alS)
2.1.1 多臂老虎機問題
2.1.2 E-Greedy策略
2.1.3 UCB-1策略
2.1.4 Bayes sampling 策略
2.2 動態規劃法
2.2.1 E-Greedy (ε=1)策略迭代法
2.2.2 E-Greedy (ε=0)策略迭代法(On-Policy)
2.2.3 E -Greedy (ε=0 )價值迭代法(Off-Policy)
2.3 蒙特卡羅方法
2.4 TD(0)方法
2.4.1 從策略迭代法推導SARSA方法
2.4.2 TD(0)-SARSA方法
2.4.3 由價值迭代法推導TD( 0)-Q方法
2.4.4 完全Off-Policy的TD(0)-Q方法
2.4.5 局部Off-Policy的TD(0)-Q方法
2.4.6 TD(0)-0方法與TD(0) -SARSA方法的比較
總結
第3章函數近似方法
3.0 簡介
3.1 函數近似的基本概念
3.2 使用函數近似模型的V(St)表達方式
3.3 機器學習的價值函數回歸
3.3.1 從誤差函數得出的回歸和分類
3.3.2 誤差函數的設計與機率梯度下降法
3.3.3 強化學習中的迴歸分析機制
3.4 使用蒙特卡羅方法進行價值函數迴歸
3.5 使用TD(0)-SARSA方法進行行動狀態價值函數迴歸
3.6 使用TD(0)-Q方法進行行動狀態價值函數迴歸
總結
第4章深度強化學習的原理與方法
4.0 簡介
4.1 TD-Q方法中基於NN的行動價值函數迴歸
4.2 基於DQN方法的行動狀態價值函數的近似
4.3 機率策略梯度法
4.3.1 蒙特卡羅離散策略梯度法
4.3.2 基線蒙特卡羅離散策略梯度法
4.3.3 離散型Actor-Critic法
4.3.4 連續型Actor-Critic法
4.4 決策型策略梯度法
4.4.1 DDPG方法
4.4.2 混合DDPG方法
4.5 TRPO/PPO方法有Code
4.5.1 EM演算法
4.5.2 信賴域與自然梯度
4.5.3 信賴域策略梯度法
4.6 AlphaGo Zero學習法有Code
4.6.1 AlphaGo Zero的學習誤差函數
4.6.2 AlphaGo的學習策略π
4.7 總結與展望
總結
參考文獻