阿爾法零對最優模型預測自適應控制的啟示 Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control
[美]德梅萃·P. 博塞克斯(Dimitri P. Bertsekas) 著 賈慶山 李巖 譯
- 出版商: 清華大學
- 出版日期: 2024-06-01
- 售價: $414
- 貴賓價: 9.5 折 $393
- 語言: 簡體中文
- ISBN: 7302660360
- ISBN-13: 9787302660361
-
相關分類:
Reinforcement
立即出貨
買這商品的人也買了...
-
Feedback Systems: An Introduction for Scientists and Engineers (Hardcover)$3,810$3,620 -
卡爾曼濾波理論與實踐:MATLAB 版, 4/e$594$564 -
$267神經·模糊·預測控制及其 MATLAB 實現, 4/e -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$538 -
最新圖解馬達入門$300$255 -
$602滑模變結構控制 MATLAB 模擬:基本理論與設計方法, 4/e -
$469深度強化學習:學術前沿與實戰應用 -
$374強化學習入門:從原理到實踐 -
$352強化學習 (微課版) -
NLP 大神 RNN 網路:Python 原始程式碼手把手帶你寫$890$703 -
$1,423機器學習:貝葉斯和優化方法, 2/e (Machine Learning : A Bayesian and Optimization Perspective, 2/e) -
動手學強化學習$539$512 -
一本精通 - OpenCV 與 AI 影像辨識$680$537 -
控制之美 (捲2) - 最優化控制 MPC 與卡爾曼濾波器$474$450 -
$407深度學習理論與實踐 -
$704蒙特卡羅方法與人工智能 -
強化學習$419$398 -
$301深度強化學習原理與實踐 -
強化學習與最優控制$834$792 -
$301智能量化:ChatGPT 在金融策略與算法交易中的實踐 -
天線理論與工程設計$294$279 -
生成深度學習|訓練機器繪畫、寫作、作曲與玩遊戲, 2/e (Generative Deep Learning: Teaching Machines to Paint, Write, Compose, and Play, 2/e)$880$695 -
機器學習 : 最強入門邁向 AI 高手 王者歸來$1,080$853 -
RBF神經網絡自適應控制及MATLAB模擬(第3版)$768$730 -
機器人模擬、控制與應用 (簡體書)$474$450
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
79折
$564CUDA 並行編程與性能優化 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
87折
$981深度學習:基礎與概念 -
79折
$469GitHub Copilot 編程指南 -
87折
$469Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL 計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
79折
$469GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797 -
VIP 95折
ZBrush遊戲角色設計(第2版)$479$455
相關主題
商品描述
大致內容:第一章,從阿爾法零的卓越性能出發,深入解讀其背後著實不易的成長歷程,揭示其數學模型。第二章,從確定性和隨機動態規劃問題入手,介紹決策問題的數學模型。第三章,從抽象視角回顧紛繁復雜的強化學習算法,揭示值函數近似與滾動改進的重要作用。第四章,從經典的線性二次型**控制問題入手,分析從阿爾法零的成功中學到的經驗。第五章,分別從魯棒、自適應、模型預測控制等問題入手,分析值函數近似與滾動改進對算法性能的提升潛力。第六章,從離散優化的視角審視阿爾法零的成功經驗。第七章,總結全書。適合作為本領域研究者作為學術專著閱讀,也適合作為研究生和本科生作為參考書使用。
作者簡介
賈慶山,清華大學長聘教授。主要研究信息物理融合能源系統的優化理論與方法。發表四十篇IEEE匯刊論文。獲得2009年國家自然科學獎二等獎、2018年國家自然科學獎二等獎、2020年自然科學獎二等獎,多次獲得國際期刊、國際會議最佳論文獎。擔任IEEE Internet of Things Activity Board委員、IEEE控制系統協會Board of Governors委員、IEEE控制系統協會北京分會主席、IEEE機器人與自動化協會智能建築專業委員會副主席、IFAC智慧城市控制專業委員會主席。曾任IEEE控制系統協會離散事件系統專業委員會主席。擔任中國自動化學會第十一屆控制理論專業委員會委員兼副秘書長,中國自動化學會第一屆工業控制系統信息安全專業委員會委員。
目錄大綱
目錄
第 1 章 阿爾法零、離線訓練和在線學習 1
1.1 離線訓練和策略疊代 3
1.2 在線學習與值空間近似——截斷滾動 4
1.3 阿爾法零的經驗 6
1.4 強化學習的一種新概念框架 8
1.5 註釋與參考文獻 9
第 2 章 確定性和隨機的動態規劃 13
2.1 無限時段上的最優控制 14
2.2 值空間近似 18
2.3 註釋與參考文獻 . 21
第 3 章 強化學習的抽象視角 22
3.1 貝爾曼算子 23
3.2 值空間近似和牛頓法 28
3.3 穩定域 32
3.4 策略疊代、滾動和牛頓法 36
3.5 在線對弈對於離線訓練過程有多敏感? 41
3.6 何不直接訓練策略網絡並在使用時摒棄在線對弈呢? 43
3.7 多智能體問題和多智能體滾動 44
3.8 在線簡化策略疊代 47
3.9 例外情形 52
3.10 註釋與參考文獻 57
第 4 章 線性二次型情形——例證 59
4.1 最優解 60
4.2 穩定線性策略的費用函數 61
4.3 值疊代 63
4.4 單步和多步前瞻——牛頓步的解釋 64
4.5 靈敏度問題 67
4.6 滾動和策略疊代 . 69
4.7 截斷滾動——前瞻長度問題 71
4.8 線性二次型問題中的例外行為 73
4.9 註釋與參考文獻 . 74
第 5 章 自適應和模型預測控制 75
5.1 具有未知參數的系統——魯棒和 PID 控制 76
5.2 值空間近似、滾動和自適應控制 . 78
5.3 值空間近似、滾動和模型預測控制 81
5.4 末端費用近似——穩定性問題 83
5.5 註釋與參考文獻 . 87
第 6 章 有限時段確定性問題——離散優化 88
6.1 確定性離散空間有限時段問題 89
6.2 一般離散優化問題 92
6.3 值空間近似 95
6.4 離散優化的滾動算法 98
6.5 採用多步前瞻的滾動——截斷滾動 111
6.6 約束形式的滾動算法 114
6.7 使用部分可觀馬爾可夫決策問題模型滾動的自適應控制 124
6.8 極小化極大控制的滾動 . 130
6.9 小階段費用與長時段——連續時間滾動 136
6.10 結語 142
附錄 A 不動點問題的牛頓法 145
A.1 可微不動點問題的牛頓法 145
A.2 無須貝爾曼算子可微性的牛頓法 148
參考文獻 152



