強化學習:基礎·理論·前沿
白文松 張超
- 出版商: 東南大學
- 出版日期: 2025-08-01
- 售價: $414
- 語言: 簡體中文
- 頁數: 238
- ISBN: 7576622970
- ISBN-13: 9787576622973
-
相關分類:
Reinforcement
下單後立即進貨 (約4週~6週)
商品描述
這本書深入探討了強化學習(Reinforcement Learning, RL)的核心理論與前沿,旨在為讀者提 供全面而系統的理解。全書分為九個章節,涵蓋從 基礎概念到前沿研究的廣泛內容。 章奠定了強化學習的基礎,詳細介紹了馬 爾可夫決策過程(MDP),以及與計算覆雜性相關的 重要方法,如值疊代、策略疊代等。讀者將掌握如 何通過貝爾曼方程分析決策過程的 性,同時了 解樣本覆雜性及其在實際應用中的重要性。 第二章則集中於經典的強化學習算法,包括策 略梯度方法、Q學習、DDPG和TD3等。每種算法不僅 被介紹,還分析了其優缺點,幫助讀者理解不同方 法的適用場景及其在實際應用中的表現。 第三章引入了基於采樣的強化學習方法,探討 生成模型的構建與應用。通過對重參數化技術的講 解,讀者可以 深入地理解采樣模型在強化學習中 的重要性。 第四章圍繞模仿學習展開,探討行為克隆、逆 向強化學習及對抗模仿學習等技術。這一章節強調 了模仿學習在模擬和訓練智能體方面的潛力及其挑 戰。 第五章則聚焦於值分布式強化學習,介紹了 QR-DQN、IQN等 算法。這些方法為強化學習提 供了 為精細的價值評估,使得智能體能夠 好地 處理覆雜任務中的風險與不確定性。 第六章介紹了元強化學習,探討了如何通過再 生核希爾伯特空間(RKHS)和變分自編碼器(VAE )等方法,提高學習效率和適應性。 第七章涉及增量強化學習的概念與方法,討論 了災難性遺忘等問題,並介紹當前 研究及解決 方案。 第八章與第九章則探索了大模型與 Transformer在強化學習中的應用,尤其是如何結 合大語言模型提升智能體的決策能力和靈活性。 全書不僅為強化學習的研究者和從業者提供了 深入的理論支持,還結合了豐富的實例與應用,適 合希望提升自身理解和應用能力的讀者。通過這本 書,您將能 全面地掌握強化學習的理論、技術和 未來發展方向。
作者簡介
白文松,浙江大學計算機科學與技術學院博士,碩士畢業於聖路易斯華盛頓大學。研究方向為強化學習、模仿學習。
目錄大綱
第一章 強化學習基礎
1.1 馬爾可夫決策過程
1.1.1 馬爾可夫性質
1.1.2 無限時域馬爾可夫決策過程
1.1.3 馬爾可夫決策過程的應用
1.1.4 穩態策略的貝爾曼一致性方程
1.1.5 貝爾曼最優性方程
1.1.6 有限時域馬爾可夫決策過程
1.2 計算覆雜性
1.2.1 值疊代法
1.2.2 策略疊代
1.2.3 有限時域MDP的值疊代
1.2.4 線性規劃方法
1.2.5 對偶線性規劃與狀態-動作多面體
1.2.6 采樣覆雜性與采樣模型
1.3 優勢函數與性能差異引理
1.4 本章小結
第二章 經典強化學習算法
2.1 策略梯度方法
2.1.1 策略梯度
2.1.2 梯度上升與收斂到駐點
2.1.3 蒙特卡羅估計與隨機梯度上升
2.1.4 帶基線的策略梯度
2.2 Q學習算法
2.2.1 時間差分
2.2.2 DQN算法
2.3 深度確定性策略梯度
2.3.1 DDPG的核心原理
2.3.2 DDPG的優勢與局限
2.4 TD3算法
2.4.1 TD3的核心思想
2.4.2 TD3的應用與優勢
2.5 基於熵正則化的強化學習
2.5.1 軟演員評論家算法(SAC)
2.5.2 SAC詳細理論推導
2.5.3 極端Q學習
2.6 本章小結
第三章 基於采樣的強化學習方法
3.1 生成模型
3.1.1 推前算子
3.1.2 重參數化
3.1.3 概率測度之間的距離
3.2 f - 散度與積分概率度量
3.2.1 f - 散度基礎知識
3.2.2 f - 散度
3.2.3 常用f - 散度
3.2.4 f - 散度的性質
3.2.5 φ - 散度
3.2.6 積分概率度量
3.3 積分概率度量的估計
3.4 本章小結
第四章 模仿學習
4.1 行為克隆
4.1.1 行為克隆的理論保證
4.1.2 行為克隆的挑戰
4.1.3 基於行為克隆的算法
4.2 逆向強化學習
4.2.1 獎勵最優條件
4.2.2 IRL的挑戰
4.2.3 算法介紹:最大熵逆向強化學習
4.2.4 算法介紹:引導成本學習
4.2.5 貝葉斯逆向強化學習
4.2.6 回歸與分類方法
4.3 對抗模仿學習
4.3.1 生成對抗網絡(GAN)
4.3.2 算法介紹:生成對抗模仿學習
4.3.3 算法介紹:對抗逆強化學習
4.4 基於觀察的模仿學習
4.4.1 ILfO的基本原理
4.4.2 基於模型的方法
4.4.3 無模型的方法
4.4.4 ILfO的挑戰
4.4.5 算法介紹:第三人稱模仿學習
4.4.6 算法介紹:基於觀察的行為克隆
4.4.7 算法介紹:基於模型的模仿學習與探索
4.5 跨域模仿學習
4.5.1 跨域模仿學習的發展歷程
4.5.2 算法介紹:學習不變特征空間以遷移技能
4.5.3 算法介紹:生成對抗MDP對齊
4.6 基於最優傳輸的模仿學習
4.6.1 算法介紹:基於最優傳輸的多源域適應算法
4.6.2 算法介紹:Gromov - Wasserstein模仿學習
4.7 本章小結
第五章 值分布式強化學習
5.1 值分布式強化學習
5.1.1 值分布式強化學習算法的發展歷程
5.1.2 值分布式強化學習的理論基礎
5.2 基於分位數回歸的深度Q神經網絡
5.2.1 分位數分布
5.2.2 分位數投影
5.2.3 分位數投影優化
5.2.4 分位數回歸
5.2.5 分位數Huber損失函數
5.2.6 QR - DQN算法核心
5.3 隱式分位數網絡
5.3.1 風險敏感策略
5.3.2 IQN策略更新
5.4 全參數化的分位數函數
5.5 風險敏感強化學習
5.5.1 風險度量
5.5.2 算法介紹:風險規避的離線強化學習
5.6 帶約束的安全強化學習
5.6.1 帶約束的馬爾可夫決策過程
5.6.2 拉格朗日乘子法
5.6.3 算法介紹:帶約束的Decision Transform
5.7 本章小結
第六章 元強化學習
6.1 再生核希爾伯特空間
6.1.1 內積空間
6.1.2 希爾伯特空間
6.1.3 再生核希爾伯特空間(RKHS)
6.1.4 核函數與RKHS的關系
6.1.5 RKHS在機器學習中的應用
6.2 變分自編碼器
6.2.1 VAE的編碼器
6.2.2 證據下界
6.3 非平穩強化學習設定
6.4 元強化學習
6.4.1 元強化學習基礎知識
6.4.2 元強化學習環境
6.4.3 元強化學習中的實驗設置
6.4.4 元強化學習面臨的挑戰
6.5 本章小結
第七章 增量強化學習
7.1 增量學習
7.1.1 基礎設定
7.1.2 災難性遺忘
7.1.3 其他概念
7.2 增量強化學習
7.2.1 問題定義
7.2.2 增量強化學習主要方法
7.2.3 比較與挑戰
7.3 元增量強化學習
7.3.1 任務目標
7.3.2 算法講解:增量元策略搜索
7.4 深層強化學習
7.4.1 深層深度神經網絡
7.4.2 殘差網絡與殘差策略學習
7.5 本章小結
第八章 大模型驅動下的強化學習
8.1 大語言模型驅動下的智能體
8.1.1 智能體系統概述
8.1.2 組件一:規劃
8.1.3 組件