強化學習演算法入門

Name: 強化學習演算法入門
Price: 398 TWD
Availability: InStock
Author: 曾我部東馬
ISBN: 7522617618

曾我部東馬

出版商: 中國水利水電
出版日期: 2024-01-01
售價: $419
貴賓價: 9.5 折 $398
語言: 簡體中文
頁數: 184
裝訂: 平裝
ISBN: 7522617618
ISBN-13: 9787522617619
相關分類: Reinforcement、化學 Chemistry、Algorithms-data-structures

立即出貨 (庫存 < 4)

買這商品的人也買了...

$505

深度強化學習原理與實踐
$796

強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e)
~~$354~~ $336

強化學習與深度學習：通過 C語言模擬
~~$520~~ $406

特徵工程不再難：資料科學新手也能輕鬆搞定！ (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)
~~$594~~ $564

強化學習
~~$414~~ $393

人工智能算法捲2 受大自然啟發的算法
~~$839~~ $797

算法訓練營：海量圖解 + 競賽刷題 (進階篇)
$658

深度強化學習：基礎、研究與應用
$662

算法訓練營：海量圖解 + 競賽刷題 (入門篇)
~~$779~~ $740

深度強化學習
~~$534~~ $507

深度強化學習理論與實踐
~~$654~~ $621

強化學習
~~$774~~ $735

強化學習：原理與Python實戰
~~$419~~ $398

搜尋演算法：人工智慧如何尋找最優
~~$599~~ $569

遞歸算法與項目實戰
$454

從零開始大模型開發與微調：基於 PyTorch 與 ChatGLM
~~$588~~ $559

強化學習與機器人控制
~~$880~~ $695

AI 時代從基本功下手 - 深入電腦底層運作原理
$653

TypeScript + Vue.js 前端開發從入門到精通
~~$594~~ $564

實戰 AI 大模型
$509

YOLO 目標檢測
$407

GPT 圖解 : 大模型是怎樣構建的
~~$594~~ $564

內網滲透實戰攻略
~~$714~~ $678

大語言模型：原理與工程實踐
$602

大語言模型：基礎與前沿

商品描述

身為一個戰勝圍棋世界的人工智慧機器人AlphaGo，我們知道其主要運作原理是深度學習。
隨著AlphaGo Zero和Alpha Zero的相繼發布，作為機器學習經典演算法之一的強化學習在人工智慧領域受到了更多的關注。
《強化學習演算法入門》就用簡單易懂的語言，按照「原理-公式-程序」的方式對強化學習的基礎知識進行了詳細講解。
書中先讓大家從熟悉的「平均值計算」作為切入點學習強化學習的基本概念，然後結合實例學習了函數近似方法、
深度強化學習的原理和方法等，比較了各算法的特徵和應用，並以Python和MATLAB兩種語言進行了程式實作。
《強化學習演算法入門》內容豐富，實踐性強，
特別適合大學人工智慧相關專業學生，機器學習、深度學習工程師學習強化學習演算法。

目錄大綱

第1章基於「平均」的強化學習的基本概念
1.0 簡介
1.1 平均值與期望值
1.1.1 平均值
1.1.2 期望值
1.1.3 期望值與平均值的關係
1.2 平均值與價值
總結
1.3 平均值與馬可夫性
1.3.1 平均值的計算公式及其變形
1.3.2 逐次平均值表達和MP
1.4 用平均值推導貝爾曼方程式
1.4.1 平均值表達和價值函數的引入
1.4.2 決策型貝爾曼方程式的推導
1.4.3 機率型貝爾曼方程式的推導
1.5 蒙特卡羅方法的平均值推導
1.5.1 總獎勵函數G(St)的引入
1.5.2 總獎勵函數G(St)與價值函數V(St)的比較
1.5.3 總獎勵函數G(St)平均值的價值函數v(St)
1.6 用平均值推導TD方法
1.6.1 TD(0) 方法的計算公式的推導
1.6.2 TD(n)方法的計算公式的推導
總結
第2章強化學習中演算法的特性與應用
2.0 簡介
2.1 強化學習中的策略(alS)
2.1.1 多臂老虎機問題
2.1.2 E-Greedy策略
2.1.3 UCB-1策略
2.1.4 Bayes sampling 策略
2.2 動態規劃法
2.2.1 E-Greedy (ε=1)策略迭代法
2.2.2 E-Greedy (ε=0)策略迭代法(On-Policy)
2.2.3 E -Greedy (ε=0 )價值迭代法(Off-Policy)
2.3 蒙特卡羅方法
2.4 TD(0)方法
2.4.1 從策略迭代法推導SARSA方法
2.4.2 TD(0)-SARSA方法
2.4.3 由價值迭代法推導TD( 0)-Q方法
2.4.4 完全Off-Policy的TD(0)-Q方法
2.4.5 局部Off-Policy的TD(0)-Q方法
2.4.6 TD(0)-0方法與TD(0) -SARSA方法的比較
總結
第3章函數近似方法
3.0 簡介
3.1 函數近似的基本概念
3.2 使用函數近似模型的V(St)表達方式
3.3 機器學習的價值函數回歸
3.3.1 從誤差函數得出的回歸和分類
3.3.2 誤差函數的設計與機率梯度下降法
3.3.3 強化學習中的迴歸分析機制
3.4 使用蒙特卡羅方法進行價值函數迴歸
3.5 使用TD(0)-SARSA方法進行行動狀態價值函數迴歸
3.6 使用TD(0)-Q方法進行行動狀態價值函數迴歸
總結
第4章深度強化學習的原理與方法
4.0 簡介
4.1 TD-Q方法中基於NN的行動價值函數迴歸
4.2 基於DQN方法的行動狀態價值函數的近似
4.3 機率策略梯度法
4.3.1 蒙特卡羅離散策略梯度法
4.3.2 基線蒙特卡羅離散策略梯度法
4.3.3 離散型Actor-Critic法
4.3.4 連續型Actor-Critic法
4.4 決策型策略梯度法
4.4.1 DDPG方法
4.4.2 混合DDPG方法
4.5 TRPO/PPO方法有Code
4.5.1 EM演算法
4.5.2 信賴域與自然梯度
4.5.3 信賴域策略梯度法
4.6 AlphaGo Zero學習法有Code
4.6.1 AlphaGo Zero的學習誤差函數
4.6.2 AlphaGo的學習策略π
4.7 總結與展望
總結
參考文獻

強化學習演算法入門

曾我部東馬

買這商品的人也買了...

相關主題

商品描述

目錄大綱

類似商品