阿爾法零對最優模型預測自適應控制的啟示 Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著賈慶山李巖譯

預覽內頁

出版商: 清華大學
出版日期: 2024-06-01
定價: $414
售價: 8.5 折 $351
語言: 簡體中文
ISBN: 7302660360
ISBN-13: 9787302660361
相關分類: Reinforcement

立即出貨

買這商品的人也買了...

~~$3,910~~ $3,714

Feedback Systems: An Introduction for Scientists and Engineers (Hardcover)
~~$400~~ $360

物件導向 Keil C51 嵌入式程式設計, 2/e
~~$594~~ $564

卡爾曼濾波理論與實踐：MATLAB 版, 4/e
$267

神經·模糊·預測控制及其 MATLAB 實現, 4/e
~~$594~~ $564

FreeRTOS 內核實現與應用開發實戰指南 — 基於 STM32
~~$594~~ $564

深度強化學習：學術前沿與實戰應用
$374

強化學習入門：從原理到實踐
$447

數據驅動的科學和工程：機器學習、動力系統與控制詳解
$351

強化學習 (微課版)
~~$1,674~~ $1,590

機器學習：貝葉斯和優化方法, 2/e (Machine Learning : A Bayesian and Optimization Perspective, 2/e)
$539

動手學強化學習
$417

歐盟通用數據保護 — GDPR 合規實踐
~~$479~~ $455

嵌入式系統設計 — 基於 Cortex-M 處理器與 RTOS 構建
$384

電子工程師必備 : 電路板技能速成寶典, 2/e
~~$680~~ $537

一本精通 - OpenCV 與 AI 影像辨識
$407

深度學習理論與實踐
$356

強化學習
$279

深度強化學習原理與實踐
$708

強化學習與最優控制
~~$594~~ $564

神經網絡建模與動態系統辨識
~~$880~~ $695

生成深度學習｜訓練機器繪畫、寫作、作曲與玩遊戲, 2/e (Generative Deep Learning: Teaching Machines to Paint, Write, Compose, and Play, 2/e)
~~$1,080~~ $853

機器學習 : 最強入門邁向 AI 高手王者歸來
$652

RBF神經網絡自適應控制及MATLAB模擬(第3版)
$402

機器人模擬、控制與應用 (簡體書)
~~$1,014~~ $963

魯棒控制系統設計與 MATLAB 仿真, 2/e

商品描述

大致內容：第一章，從阿爾法零的卓越性能出發，深入解讀其背後著實不易的成長歷程，揭示其數學模型。第二章，從確定性和隨機動態規劃問題入手，介紹決策問題的數學模型。第三章，從抽象視角回顧紛繁復雜的強化學習算法，揭示值函數近似與滾動改進的重要作用。第四章，從經典的線性二次型**控制問題入手，分析從阿爾法零的成功中學到的經驗。第五章，分別從魯棒、自適應、模型預測控制等問題入手，分析值函數近似與滾動改進對算法性能的提升潛力。第六章，從離散優化的視角審視阿爾法零的成功經驗。第七章，總結全書。適合作為本領域研究者作為學術專著閱讀，也適合作為研究生和本科生作為參考書使用。

作者簡介

賈慶山，清華大學長聘教授。主要研究信息物理融合能源系統的優化理論與方法。發表四十篇IEEE匯刊論文。獲得2009年國家自然科學獎二等獎、2018年國家自然科學獎二等獎、2020年自然科學獎二等獎，多次獲得國際期刊、國際會議最佳論文獎。擔任IEEE Internet of Things Activity Board委員、IEEE控制系統協會Board of Governors委員、IEEE控制系統協會北京分會主席、IEEE機器人與自動化協會智能建築專業委員會副主席、IFAC智慧城市控制專業委員會主席。曾任IEEE控制系統協會離散事件系統專業委員會主席。擔任中國自動化學會第十一屆控制理論專業委員會委員兼副秘書長，中國自動化學會第一屆工業控制系統信息安全專業委員會委員。

目錄大綱

第 1 章阿爾法零、離線訓練和在線學習 1

1.1 離線訓練和策略疊代 3

1.2 在線學習與值空間近似——截斷滾動 4

1.3 阿爾法零的經驗 6

1.4 強化學習的一種新概念框架 8

1.5 註釋與參考文獻 9

第 2 章確定性和隨機的動態規劃 13

2.1 無限時段上的最優控制 14

2.2 值空間近似 18

2.3 註釋與參考文獻 . 21

第 3 章強化學習的抽象視角 22

3.1 貝爾曼算子 23

3.2 值空間近似和牛頓法 28

3.3 穩定域 32

3.4 策略疊代、滾動和牛頓法 36

3.5 在線對弈對於離線訓練過程有多敏感？ 41

3.6 何不直接訓練策略網絡並在使用時摒棄在線對弈呢？ 43

3.7 多智能體問題和多智能體滾動 44

3.8 在線簡化策略疊代 47

3.9 例外情形 52

3.10 註釋與參考文獻 57

第 4 章線性二次型情形——例證 59

4.1 最優解 60

4.2 穩定線性策略的費用函數 61

4.3 值疊代 63

4.4 單步和多步前瞻——牛頓步的解釋 64

4.5 靈敏度問題 67

4.6 滾動和策略疊代 . 69

4.7 截斷滾動——前瞻長度問題 71

4.8 線性二次型問題中的例外行為 73

4.9 註釋與參考文獻 . 74

第 5 章自適應和模型預測控制 75

5.1 具有未知參數的系統——魯棒和 PID 控制 76

5.2 值空間近似、滾動和自適應控制 . 78

5.3 值空間近似、滾動和模型預測控制 81

5.4 末端費用近似——穩定性問題 83

5.5 註釋與參考文獻 . 87

第 6 章有限時段確定性問題——離散優化 88

6.1 確定性離散空間有限時段問題 89

6.2 一般離散優化問題 92

6.3 值空間近似 95

6.4 離散優化的滾動算法 98

6.5 採用多步前瞻的滾動——截斷滾動 111

6.6 約束形式的滾動算法 114

6.7 使用部分可觀馬爾可夫決策問題模型滾動的自適應控制 124

6.8 極小化極大控制的滾動 . 130

6.9 小階段費用與長時段——連續時間滾動 136

6.10 結語 142

附錄 A 不動點問題的牛頓法 145

A.1 可微不動點問題的牛頓法 145

A.2 無須貝爾曼算子可微性的牛頓法 148

參考文獻 152

阿爾法零對最優模型預測自適應控制的啟示 Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著賈慶山李巖譯

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

阿爾法零對最優模型預測自適應控制的啟示 Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas） 著 賈慶山 李巖 譯

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著賈慶山李巖譯