強化學習

Name: 強化學習
Price: 414 TWD
Availability: Discontinued
Author: 柯良軍、王小強
ISBN: 7302532400

柯良軍、王小強

預覽內頁

出版商: 清華大學
出版日期: 2019-12-01
售價: $414
語言: 簡體中文
ISBN: 7302532400
ISBN-13: 9787302532408
相關分類: Reinforcement

已絕版

買這商品的人也買了...

$414

多智能體機器學習 : 強化學習方法 (Multi-Agent Machine Learning : A Reinforcement Approach)
$402

深入淺出強化學習 : 原理入門
$408

強化學習精要：核心算法與 TensorFlow 實現
~~$539~~ $512

揭秘深度強化學習人工智能機器學習技術叢書
~~$534~~ $507

強化學習實戰：強化學習在阿裡的技術演進和業務創新匯集了阿裡巴巴一線算法工程師在強化學習應用方面的經驗和心得。
$402

人人都是數據分析師 Tableau 應用實戰, 2/e
~~$520~~ $442

用 Python 實作強化學習｜使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)
~~$580~~ $493

翻轉 Excel 駕馭 Power BI 商業智慧進化自助大數據分析實務應用
$594

深度強化學習原理與實踐
~~$500~~ $425

實戰人工智慧之深度強化學習｜使用 PyTorch x Python
~~$580~~ $458

Python 機器學習錦囊妙計 (Machine Learning with Python Cookbook)
~~$980~~ $774

Python 金融分析, 2/e (Python for Finance, 2/e)
$453

精通 Tableau 商業數據分析與可視化
~~$599~~ $509

文科生也學得會的網路爬蟲：Excel VBA + Web Scraper
$400

深入淺出強化學習：編程實戰
~~$1,200~~ $948

精通機器學習｜使用 Scikit-Learn , Keras 與 TensorFlow, 2/e (Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2/e)
~~$594~~ $564

深度強化學習：學術前沿與實戰應用
~~$500~~ $390

深度學習的數學：用數學開啟深度學習的大門
~~$414~~ $393

邊做邊學深度強化學習：PyTorch 程序設計實踐
$504

強化學習
$402

機器學習：基於 OpenCV 和 Python 的智能圖像處理
$453

OpenCV 深度學習應用與性能優化實踐
$355

強化學習入門：從原理到實踐
~~$1,200~~ $948

Reinforcement Learning｜強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)
$611

深度強化學習：基礎、研究與應用

商品描述

本書介紹強化學習原理、算法及其實現。內容涉及基於模型的強化學習、基於採樣-估計的強化學習、基於逼近理論的強化學習及深度強化學習等。本書以教學為目標進行選材，力求闡述嚴謹、重點突出、深入淺出，以便於教學與自學。本書面向所有對強化學習感興趣的讀者，可作為高等學校理工科高年級本科生、研究生強化學習課程教材或參考書。

目錄大綱

第1章緒論
1.1引言
1.2解決複雜問題的樸素思想
1.2.1數學建模與優化
1.2.2採樣和估計
1.2.3逼近
1.2.4迭代
1.3強化學習簡史
1.4本書主要內容及結構
1.5小結
1.6習題
參考文獻

第2章基礎知識
2.1運籌學簡明基礎
2.1.1無約束非線性規劃優化方法
2.1.2 KKT條件
2.1.3凸規劃的性質
2.2概率與統計簡明基礎
2.2.1概率論基本概念
2.2.2概率論的收斂定理
2.2.3統計學的基本概念
2.2.4優選似然估計法
2.2.5估計量的優良性評估
2.2.6採樣與隨機模擬
2.2.7 Monte Carlo方法簡介
2.2.8重要採樣法
2.3小結
2.4習題
參考文獻

第一篇基於模型的強化學習

第3章多搖臂問題
3.1動作值方法
3.2非平穩多搖臂問題
3.3 UCB動作選擇
3.4梯度搖臂算法
3.5習題
參考文獻

第4章Markov決策過程
4.1定義和記號
4.2有限Markov決策過程
4.3 Bellman方程
4.4最優策略
4.5小結
4.6習題
參考文獻

第5章動態規劃
5.1策略評估
5.2策略改進
5.3策略迭代
5.4值迭代
5.5異步動態規劃
5.6收斂性證明
5.7小結
5.8習題
參考文獻

第二篇基於採樣-估計的強化學習

第6章策略評估
6.1基於Monte Carlo方法的策略評估
6.1.1同策略Monte Carlo策略評估
6.1.2異策略Monte Carlo策略評估
6.2基於時序差分方法的策略評估
6.3 n步預測
6.4小結
6.5習題
參考文獻

第7章策略控制
7.1同策略Monte Carlo控制
7.2同策略時序差分學習
7.3異策略學習
7.4基於TD（λ）的策略控制
7.5實例
7.5.1問題介紹
7.5.2 MDP模型的要素
7.5.3策略評估
7.5.4策略控制
7.6小結
7.7習題
參考文獻

第8章學習與規劃的整合
8.1模型和規劃
8.2 Dyna：整合規劃、動作和學習
8.3幾個概念
8.4在決策關頭的規劃
8.4.1啟發式算法
8.4.2 rollout算法
8.4.3 Monte Carlo樹搜索
8.5小結
8.6習題
參考文獻

第三篇基於逼近理論的強化學習

第9章值函數逼近
9.1基於隨機梯度下降法的值函數逼近
9.2基於隨機梯度下降法的Q-值函數逼近
9.3批處理
9.3.1線性最小二乘值函數逼近
9.3.2線性最小二乘Q-值函數逼近
9.4小結
9.5習題
參考文獻

第10章策略逼近
10.1策略梯度法
10.1.1最優參數問題的目標函數
10.1.2策略梯度
10.1.3梯度計算
10.1.4 REINFORCE算法
10.2方差減少方法
10.2.1利用一個評論
10.2.2利用基準線
10.3小結
10.4習題
參考文獻

第11章信賴域策略優化
11.1預備知識
11.2單調改進一般性隨機策略的方法
11.3參數化策略的優化
11.4基於採樣的目標和約束估計
11.5實用算法
11.6小結
11.7習題
參考文獻

第四篇深度強化學習

第12章深度學習
12.1神經網絡基礎
12.1.1神經網絡解決問題的基本流程
12.1.2激活函數
12.1.3損失函數
12.1.4優化算法
12.2典型深度神經網絡結構
12.2.1深度的作用
12.2.2捲積神經網絡
12.2.3循環神經網絡
參考文獻

第13章深度Q-網絡
13.1 DQN原理
13.1.1預處理
13.1.2網絡結構
13.1.3算法
13.1.4深度Q-網絡的訓練算法
13.1.5算法詳細說明
13.2 DQN實例
13.2.1 Atari 2600遊戲介紹
13.2.2 DQN算法的實現
13.3小結
13.4習題
參考文獻

第14章深度確定性策略梯度
14.1 DDPG算法介紹
14.1.1 DDPG算法的發展介紹
14.1.2 DDPG算法的原理解析
14.2 DDPG算法的實現
14.2.1 Mujoco的安裝及使用
14.2.2 DDPG算法的實現解析
14.2.3 DDPG算法的訓練和測試
參考文獻

第15章多智能體強化學習
15.1多智能體強化學習介紹
15.1.1多智能體強化學習的發展簡述
15.1.2隨機博弈
15.1.3納什Q-學習
15.2平均場多智能體強化學習原理
15.2.1平均場近似理論
15.2.2平均場多智能體強化學習算法
15.3平均場多智能體實驗
15.3.1 MAgent平臺
15.3.2混合合作-競爭的戰鬥遊戲介紹
15.3.3 MF-Q和MF-AC算法的實現解析
15.3.4戰鬥遊戲的訓練與測試
參考文獻

強化學習

柯良軍、王小強

買這商品的人也買了...

商品描述

目錄大綱

類似商品