強化學習與隨機優化

陳誌平 劉嘉 徐宗本

  • 出版商: 科學出版
  • 出版日期: 2025-10-01
  • 售價: $948
  • 語言: 簡體中文
  • 頁數: 410
  • 裝訂: 平裝
  • ISBN: 7508867513
  • ISBN-13: 9787508867519
  • 相關分類: Reinforcement
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書旨在介紹近年來作者在強化學習和隨機優化交叉領域的研究成果,主要內容包括隨機優化的 定量穩定性分析,求解多階段隨機優化的新型情景 樹生成、約減方法,機會約束規劃問題的模型轉換 、凸逼近與求解,非平穩強化學習的樣本覆雜度與 泛化能力分析,隨機優化和強化學習的統一模型及 其基本性質,風險厭惡馬氏決策過程與強化學習, 分布魯棒機會約束馬氏決策過程及其轉換與求解算法設計,連續狀態集合、連續動作集合下無限智能 體的連續時間平均場強化學習問題的性質與Actor- Critic型求解算法,以及強化學習在多期投資組合選擇中的應用。本書的目的是幫助讀者掌握如何應用強化學習或隨機優化來處理不確定環境下的覆雜動態決策問題、如何開展強化學習和隨機優化的交 叉研究,以便他們能夠盡快進入相應研究領域的前沿。

目錄大綱

目錄:
《大數據與數據科學專著系列》序
前言
主要符號表
第1章 隨機優化與強化學習簡介 1
1.1 隨機優化 1
1.1.1 兩階段有補償優化問題 1
1.1.2 兩階段混合整數隨機優化 5
1.1.3 多階段隨機優化 7
1.1.4 機會約束規劃 10
1.1.5 分布魯棒隨機優化 13
1.2 馬氏決策過程 16
1.2.1 馬氏決策過程的基本概念 17
1.2.2 決策規則與策略分類 18
1.2.3 性能準則與最優策略 19
1.2.4 最優性方程與算法 22
1.3 強化學習 28
1.3.1 強化學習的基本要素 28
1.3.2 TD類方法 32
1.3.3 策略梯度方法 36
1.3.4 Dyna-Q方法 38
1.4 小結 40
第2章 隨機優化的定量穩定性 41
2.1 預備知識 41
2.2 全隨機兩階段隨機優化問題的定量穩定性 46
2.2.1 模型基本性質 46
2.2.2 定量穩定性結果 50
2.3 風險厭惡全隨機兩階段隨機優化問題的定量穩定性 53
2.3.1 模型基本性質 54
2.3.2 定量穩定性結果 57
2.4 兩階段混合整數隨機優化問題的定量穩定性 61
2.4.1 固定補償情形 62
2.4.2 隨機補償情形 67
2.5 連續二次全隨機補償的兩階段隨機優化問題的定量穩定性 69
2.5.1 模型基本性質 70
2.5.2 定量穩定性結果 72
2.6 混合整數二次補償的兩階段隨機優化問題的定量穩定性 79
2.6.1 模型基本性質 80
2.6.2 定量穩定性結果 82
2.7 多階段隨機優化問題的定量穩定性 86
2.7.1 多階段隨機線性優化模型的基本性質 86
2.7.2 多階段隨機線性優化問題的定量穩定性 88
2.7.3 風險厭惡多階段隨機優化問題的基本性質 91
2.7.4 風險厭惡多階段隨機優化問題的定量穩定性 93
2.8 小結 96
第3章 求解多階段隨機優化的情景樹方法 97
3.1 隨機優化求解算法概述 97
3.1.1 分解類方法 97
3.1.2 抽樣型方法 99
3.1.3 情景樹方法 101
3.2 情景樹方法發展概述 102
3.2.1 情景樹的基本概念 102
3.2.2 情景樹方法研究現狀 103
3.3 情景樹生成方法 107
3.3.1 基於VAR-MGARCH模型和矩匹配的情景樹生成方法 107
3.3.2 基於動態混合Copula函數的情景樹生成方法 113
3.4 情景樹約減方法 118
3.4.1 基於合並節點的情景樹約減方法 118
3.4.2 基於隨機優化定量穩定性的情景樹約減方法 130
3.5 數值實驗 137
3.5.1 情景樹生成方法的數值分析 138
3.5.2 情景樹約減方法的數值分析 141
3.6 小結 144
第4章 機會約束規劃 145
4.1 機會約束幾何規劃問題 145
4.2 正態分布下的機會約束 149
4.2.1 凸幾何逼近 150
4.2.2 序列凸逼近 152
4.3 基於矩信息的分布魯棒機會約束 154
4.3.1 基於前兩階矩的IRGP 154
4.3.2 基於前兩階矩的JRGP 160
4.4 基於K-L散度的分布魯棒機會約束 165
4.4.1 基於K-L散度的IRGP 165
4.4.2 基於K-L散度的JRGP 168
4.5 基於Wasserstein距離的分布魯棒機會約束 171
4.5.1 基於Wasserstein距離的IRGP 171
4.5.2 基於Wasserstein距離的JRGP 179
4.6 數值實驗 183
4.6.1 分片線性逼近 185
4.6.2 獨立和聯合機會約束的比較 186
4.6.3 正負相關的影響 187
4.6.4 機會約束的滿足情況 187
4.6.5 數據驅動問題 190
4.7 小結 191
第5章 非平穩強化學習的樣本覆雜度與泛化能力 192
5.1 樣本覆雜度與泛化能力 192
5.2 強化學習的蒙特卡羅抽樣方法 194
5.2.1 有限期強化學習 194
5.2.2 無限期強化學習 202
5.3 主動強化學習的樣本平均近似方法 204
5.3.1 有限期強化學習 205
5.3.2 無限期強化學習 210
5.4 小結 211
第6章 隨機優化和強化學習的統一模型 212
6.1 引言 212
6.2 統一模型導出 214
6.2.1 內生隨機性及外生隨機性 215
6.2.2 統一模型 217
6.2.3 統一模型與現有模型的關系 218
6.3 統一模型的基本性質 220
6.4 定量穩定性分析 235
6.4.1 關於內生隨機性的定量穩定性 236
6.4.2 關於外生隨機性的定量穩定性 244
6.5 小結 267
第7章 風險厭惡馬氏決策過程與強化學習 268
7.1 預備知識 268
7.1.1 幾類新近提出的MDP模型 268
7.1.2 貝葉斯覆合風險度量 269
7.2 貝葉斯覆合風險MDP 271
7.3 有限期BCR-MDP問題 275
7.4 無限期BCR-MDP問題 279
7.4.1 貝爾曼方程與最優性條件 279
7.4.2 收斂性分析 283
7.5 基於BCR-MDP的價值疊代算法和策略疊代算法 292
7.5.1 價值疊代 292
7.5.2 策略疊代 295
7.6 針對BCR-MDP的樣本平均近似算法 297
7.7 數值實驗 301
7.7.1 有限期賭博問題 301
7.7.2 無限庫存控制問題 305
7.8 小結 305
第8章 機會約束馬氏決策過程與強化學習 306
8.1 機會約束馬氏決策過程 306
8.1.1 通常機會約束馬氏決策過程 309
8.1.2 分布魯棒機會約束馬氏決策過程 309
8.2 基於矩信息的分布魯棒機會約束馬氏決策過程 310
8.2.1 J-DRCCMDP問題的等價轉化形式 310
8.2.2 J-DRCCMDP問題的求解算法 312
8.3 基於K-L散度的分布魯棒機會約束馬氏決策過程 314
8.3.1 獨立K-L DRCCMDP 317
8.3.2 聯合K-L DRCCMDP 320
8.4 分布魯棒機會約束優化的強化學習方法 323
8.4.1 數值實驗 328
8.5 小結 328
第9章 平均場強化學習 329
9.1 多智能體系統 329
9.2 有限智能體系統的離散平均場強化學習 330
9.2.1 有限多智能體的隨機博弈 330
9.2.2 納什Q學習 332
9.2.3 平均場強化學習 332
9.2.4 平均場近似 334
9.2.5 算法實現 334
9.2.6 數值實驗 336
9.3 無限智能體系統的連續平均場強化學習 339
9.3.1 無限智能體平均場博弈的策略梯度 339
9.3.2 連續平均場博弈的策略評估 350
9.3.3 連續平均場博弈的Actor-Critic算法 350
9.3.4 數值實驗 359
9.4 小結 362
第10章 強化學習在多期投資組合選擇中的應用 364
10.1 多期投資組合投資概述 364
10.2 強化學習魯棒投資組合選擇模型 366
10.3 強化學習魯棒投資組合選擇模型的求解 368
10.3.1 基於漸近相對效率的雙層分解算法 368
10.3.2 增廣拉格朗日乘子法 369
10.3.3 參考分布更新 370
10.4 實證研究 371
10.5 小結 376
參考文獻 377
《大數據與數據科學專著系列》已出版書目 411