智能控制與強化學習先進值迭代評判設計

王鼎 趙明明 哈明鳴 任進

  • 出版商: 人民郵電
  • 出版日期: 2024-09-01
  • 定價: $839
  • 售價: 8.5$713
  • 語言: 簡體中文
  • 頁數: 236
  • ISBN: 7115633959
  • ISBN-13: 9787115633958
  • 相關分類: Reinforcement化學 Chemistry
  • 下單後立即進貨 (約4週~6週)

  • 智能控制與強化學習先進值迭代評判設計-preview-1
  • 智能控制與強化學習先進值迭代評判設計-preview-2
智能控制與強化學習先進值迭代評判設計-preview-1

相關主題

商品描述

在人工智能技術的大力驅動下,智能控制與強化學習發展迅猛,先進自動化設計與控制日新月異。本書針對復雜離散時間系統的優化調節、最優跟蹤、零和博弈等問題,以實現穩定學習、演化學習和快速學習為目標,建立一套先進的值迭代評判學習控制理論與設計方法。首先,對先進值迭代框架下迭代策略的穩定性進行全面深入的分析,建立一系列適用於不同場景的穩定性判據,從理論層面揭示值迭代算法能夠實現離線最優控制和在線演化控制。其次,基於迭代歷史信息,提出一種新穎的收斂速度可調節的值迭代算法,有助於加快學習速度、減少計算代價,更高效地獲得非線性系統的最優控制律。結合人工智能技術,對無模型值迭代評判學習控制的發展前景也進行了討論。 本書內容豐富、結構清晰、由淺入深、分析透徹,既可作為智能控制、強化學習、優化控制、計算智能、自適應與學習系統等領域研究人員和學生的參考書,又可供相關領域的技術人員使用。

作者簡介

王鼎,男,北京工业大学教授、博士生导师,现任计算智能与智能系统北京市重点实验室副主任。北京市自然科学基金杰出青年项目获得者、科睿唯安(Clarivate)全球高被引科学家、中国科协青年人才托举工程入选者,主要研究方向为智能控制与智能优化、神经网络与强化学习,涉及复杂智能控制优化、人工智能理论基础。针对不确定系统优化控制中的共性难题进行了长期研究攻关,建立并逐步完善智能评判控制框架,并为工业复杂系统的智能优化控制提供了理论支撑。目前已在人工智能及相关领域的国际期刊和会议上发表学术论文120余篇,其中82篇被SCI检索(以第一作者发表在IEEE Transactions系列期刊和Automatica领域顶刊的论文共25篇),已出版专著4本,申请和已授权发明专利9项。先后荣获吴文俊人工智能优秀青年奖、中国自动化学会自然科学奖一等奖、广东省自然科学奖一等奖等。先后担任人工智能及相关领域多个著名期刊的编委,包括:IEEE Transactions on Systems, Man, and Cybernetics: Systems、IEEE Transactions on Neural Networks and Learning Systems、Neural Networks、International Journal of Robust and Nonlinear Control、International Journal of Adaptive Control and Signal Processing、Neurocomputing、自动化学报。

目錄大綱

第 一章 智能評判控制的先進值迭代方法概述

1.1 強化學習背景

1.2 自適應評判介紹

1.3 傳統值迭代

1.4 廣義值迭代

1.5 演化值迭代

1.6 加速值迭代

1.7 小結

第二章 基於廣義值迭代的線性最優調節與穩定性分析

2.1 引言

2.2 問題描述

2.3 面向線性系統的廣義值迭代

2.4 迭代策略穩定性分析

2.5 模擬實驗

2.6 小結

第三章 具有穩定保證的非線性系統優化控制設計

3.1 引言

3.2 問題描述

3.3 面向非線性系統的廣義值迭代

3.4 迭代策略穩定性和容許性分析

3.5 模擬實驗

3.6 小結

第四章 一種基於評判學習的非線性智能最優跟蹤

4.1 引言

4.2 問題描述

4.3 面向智能最優跟蹤的廣義值迭代

4.4 基於神經網絡的算法實現

4.5 模擬實驗

4.6 小結

第五章 一類非線性系統的事件觸發最優跟蹤控制

5.1 引言

5.2 問題描述

5.3 基於事件觸發的近似最優跟蹤

5.4 基於神經網絡的跟蹤控制器設計

5.5 模擬實驗

5.6 小結

第六章 基於演化值迭代的非線性最優軌跡跟蹤

6.1 引言

6.2 問題描述

6.3 基於新型效用函數的廣義值迭代

6.4 演化控制與穩定性分析

6.5 模擬實驗

6.6 小結

第七章 融合值迭代學習的非線性零和博弈性能分析

7.1 引言

7.2 零和博弈問題描述

7.3 面向零和博弈的廣義值迭代

7.4 零和博弈的演化控制設計

7.5 模擬實驗

7.6 小結

第八章 具有可調節收斂速度的新型值迭代機制

8.1 引言

8.2 問題描述

8.3 加速值迭代算法性能分析

8.4 加速值迭代應用設計

8.5 模擬實驗

8.6 小結

第九章 基於加速值迭代的非線性系統軌跡跟蹤

9.1 引言

9.2 問題描述

9.3 面向跟蹤控制的加速值迭代

9.4 基於加速值迭代的演化控制

9.5 模擬實驗

9.6 小結

第十章 面向非線性零和博弈的快速值迭代學習

10.1 引言

10.2 問題描述

10.3 面向零和博弈的增量迭代機制

10.4 面向零和博弈的自勵迭代機制

10.5 模擬實驗

10.6 小結與展望