強化學習 强化学习
馬可·威寧 (Marco Wiering), 馬丁·範·奧特羅 (Martijn van Otterlo)
- 出版商: 機械工業
- 出版日期: 2018-07-03
- 定價: $714
- 售價: 9.5 折 $678
- 語言: 簡體中文
- 頁數: 464
- 裝訂: 平裝
- ISBN: 7111600223
- ISBN-13: 9787111600220
-
相關分類:
DeepLearning、Data Science
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
$780$616 -
$580$458 -
$403深度學習 : Caffe 之經典模型詳解與實戰
-
$653$614 -
$857$806 -
$580$458 -
$403深度學習入門之 PyTorch
-
$450$356 -
$450深入淺出強化學習 : 原理入門
-
$581深度捲積網絡 : 原理與實踐
-
$408強化學習精要:核心算法與 TensorFlow 實現
-
$200人工智能基礎 (高中版)
-
$580$493 -
$332GAN : 實戰生成對抗網絡
-
$374Python 深度學習實戰:75個有關神經網絡建模、強化學習與遷移學習的解決方案 (Python Deep Learning Cookbook: Over 75 practical recipes on neural network modeling, reinforcement learning, and transfer learning using Python)
-
$607Python 深度學習 (Deep Learning with Python)
-
$207生成對抗網絡入門指南 (Generative adversarial Networks)
-
$420$328 -
$454強化學習實戰:強化學習在阿裡的技術演進和業務創新 匯集了阿裡巴巴一線算法工程師在強化學習應用方面的經驗和心得。
-
$352Python 強化學習實戰 : 應用 OpenAI Gym 和 TensorFlow 精通強化學習和深度強化學習
-
$680$537 -
$1,000$790 -
$520$411 -
$454強化學習:原理與Python實現
-
$796強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e)
相關主題
商品描述
本書共有19章,分為六大部分,詳細介紹了強化學習中各領域的基本理論和新進展,內容包括:MDP、動態規劃、蒙特卡羅方法、批處理強化學習、TD學習、Q學習、策略迭代的小二乘法、遷移學習、貝葉斯強化學習、、一階邏輯MDP、層次式強化學習、演化計算、預測性定義狀態表示、去中心化的部分可觀察MDP、博弈論和多學習器強化學習等內容,並闡述強化學習與心理和神經科學、游戲領域、機器人領域的關系和應用,後提出未來發展趨勢及研究熱點問題,有助於年輕的研究者瞭解整個強化學習領域,發現新的研究方向。本書適合作為高等院校機器學習相關課程的參考書,也可作為人工智能領域從業技術人員的參考用書。
作者簡介
馬可·威寧(Marco Wiering)在荷蘭格羅寧根大學人工智能係工作,他發表過各種強化學習主題的文章,研究領域包括強化學習、機器學習、深度學習、目標識別、文本學習,進化計算、機器人等。
馬丁·範·奧特羅(Martijn van Otterlo)是荷蘭奈梅亨大學認知人工智能小組的一員。主要研究領域是強化學習在環境中的知識表示。
目錄大綱
第一部分緒論
第1章強化學習和馬爾可夫決策過程2
1.1簡介2
1.2時序決策3
1.2.1接近時序決策4
1.2.2在線學習與離線學習4
1.2.3貢獻分配5
1.2.4探索–運用的平衡5
1.2.5反饋、目標和性能5
1.2.6表達6
1.3正式的框架6
1.3.1馬爾可夫決策過程7
1.3 .2策略9
1.3.3最優準則和減量9
1.4價值函數和貝爾曼方程10
1.5求解馬爾可夫決策過程12
1.6動態規劃:基於模型的解決方案13
1.6.1基本的動態規划算法13
1.6 .2高效的動態規划算法17
1.7強化學習:無模型的解決方案19
1.7.1時序差分學習20
1.7.2蒙特卡羅方法23
1.7.3高效的探索和價值更新24
1.8總結27
參考文獻27
第二部分高效的解決方案框架
第2章批處理強化學習32
2.1簡介32
2.2批處理強化學習問題33
2.2.1批處理學習問題33
2.2.2增長批處理學習問題34
2.3批處理強化學習算法的基礎34
2.4批處理強化學習算法37
2.4.1基於核的近似動態規劃37
2.4.2擬合Q迭代39
2.4.3基於最小二乘的策略迭代40
2.4.4識別批處理算法41
2.5批處理強化學習理論42
2.6批處理強化學習的實現43
2.6.1神經擬合Q迭代44
2.6.2控制應用中的神經擬合Q迭代算法45
2.6.3面向多學習器的批處理強化學習46
2.6.4深度擬合Q迭代48
2.6.5應用/發展趨勢49
2.7總結50
參考文獻50
第3章策略迭代的最小二乘法53
3.1簡介53
3.2預備知識:經典策略迭代算法54
3.3近似策略評估的最小二乘法55
3.3.1主要原則和分類55
3.3.2線性情況下和矩陣形式的方程57
3.3.3無模型算法的實現60
3.3.4參考文獻62
3.4策略迭代的在線最小二乘法63
3.5例子:car-on-the-hill 64
3.6性能保障66
3.6.1漸近收斂性和保證66
3.6 .2有限樣本的保證68
3.7延伸閱讀73
參考文獻74
第4章學習和使用模型78
4.1簡介78
4.2什麼是模型79
4.3規劃80
4.4聯合模型和規劃82
4.5樣本複雜度84
4.6分解域86
4.7探索88
4.8連續域91
4.9實證比較93
4.10擴展95
4.11總結96
參考文獻97
第5章強化學習中的遷移:框架和概觀101
5.1簡介101
5.2強化學習遷移的框架和分類102
5.2.1遷移框架102
5.2 .2分類104
5.3固定狀態–動作空間中從源到目標遷移的方法108
5.3.1問題形式化108
5.3.2表示遷移109
5.3.3參數遷移110
5.4固定狀態–動作空間中跨多任務遷移的方法111
5.4.1問題形式化111
5.4.2實例遷移111
5.4.3表示遷移112
5.4.4參數遷移113
5.5不同狀態–動作空間中從源到目標任務遷移的方法114
5.5.1問題形式化114
5.5.2實例遷移115
5.5.3表示遷移115
5.5.4參數遷移116
5.6總結和開放性問題116
參考文獻117
第6章探索的樣本複雜度邊界122
6.1簡介122
6.2預備知識123
6.3形式化探索效率124
6.3.1探索的樣本複雜度和PAC-MDP 124
6.3.2遺憾最小化125
6.3.3平均損失127
6.3.4貝葉斯框架127
6.4通用PAC -MDP定理128
6.5基於模型的方法130
6.5.1 Rmax 130
6.5.2 Rmax的泛化132
6.6無模型方法138
6.7總結141
參考文獻141
第三部分建設性的表徵方向
第7章連續狀態和動作空間中的強化學習146
7.1簡介146
7.1.1連續域中的馬爾可夫決策過程147
7.1.2求解連續MDP的方法148
7.2函數逼近149
7.2.1線性函數逼近150
7.2.2非線性函數逼近153
7.2.3更新參數154
7.3近似強化學習157
7.3.1數值逼近157
7.3.2策略逼近162
7.4雙極車桿實驗168
7.5總結171
參考文獻171
第8章綜述:求解一階邏輯馬爾可夫決策過程179
8.1關係世界中的順序決策簡介179
8.1.1馬爾可夫決策過程:代表性和可擴展性180
8.1.2簡短的歷史和與其他領域的聯繫181
8.2用面向對象和關係擴展馬爾可夫決策過程183
8.2.1關係表示與邏輯歸納183
8.2.2關係型馬爾可夫決策過程184
8.2.3抽象問題和求解184
8.3基於模型的解決方案186
8.3.1貝爾曼備份的結構186
8.3.2確切的基於模型的算法187
8.3.3基於近似模型的算法190
8.4無模型的解決方案192
8.4.1固定泛化的價值函數學習192
8.4.2帶自適應泛化的價值函數193
8.4.3基於策略的求解技巧196
8.5模型、層級、偏置198
8.6現在的發展201
8.7總結和展望203
參考文獻204
第9章層次式技術213
9.1簡介213
9.2背景215
9.2.1抽象動作215
9.2.2半馬爾可夫決策問題216
9.2.3結構217
9.2.4狀態抽象218
9.2.5價值函數分解219
9.2.6優化220
9.3層次式強化學習技術220
9.3.1選項221
9.3.2 HAMQ學習222
9.3.3 MAXQ 223
9.4學習結構226
9.5相關工作和當前研究228
9.6總結230
參考文獻230
第10章針對強化學習的演化計算235
10.1簡介235
10.2神經演化237
10.3 TWEANN 239
10.3.1挑戰239
10.3.2 NEAT 240
10.4混合方法241
10.4.1演化函數近似242
10.4.2 XCS 243
10.5協同演化245
10.5.1合作式協同演化245
10.5.2競爭式協同演化246
10.6生成和發展系統247
10.7在線方法249
10.7.1基於模型的技術249
10.7.2在線演化計算250
10.8總結251
參考文獻251
第四部分概率模型
第11章貝葉斯強化學習260
11.1簡介260
11.2無模型貝葉斯強化學習261
11.2.1基於價值函數的算法261
11.2. 2策略梯度算法264
11.2.3演員–評論家算法266
11.3基於模型的貝葉斯強化學習268
11.3.1由POMDP表述的貝葉斯強化學習268
11.3.2通過動態規劃的貝葉斯強化學習269
11.3.3近似在線算法271
11.3.4貝葉斯多任務強化學習272
11.3.5集成先驗知識273
11.4有限樣本分析和復雜度問題274
11.5總結和討論275
參考文獻275
第12章部分可觀察的馬爾可夫決策過程279
12.1簡介279
12.2部分可觀察環境中的決策280
12.2.1 POMDP模型280
12.2.2連續和結構化的表達281
12.2.3優化決策記憶282
12.2.4策略和價值函數284
12.3基於模型的技術285
12.3 .1基於MDP的啟發式解決方案285
12.3.2 POMDP的值迭代286
12.3.3確切的值迭代288
12.3.4基於點的值迭代方法290
12.3.5其他近似求解方法291
12.4無先驗模型的決策292
12.4.1無記憶技術292
12.4.2學習內部記憶292
12.5近期研究趨勢294
參考文獻295
第13章預測性定義狀態表示300
13.1簡介300
13.1.1狀態是什麼301
13.1.2哪一個狀態表示301
13.1.3為什麼使用預測性定義模型302
13.2 PSR 303
13.2.1歷史及測試303
13.2.2測試的預測304
13.2.3系統動態向量304
13.2.4系統動態矩陣305
13.2.5充分的數據集305
13.2.6狀態306
13.2.7更新狀態306
13.2.8線性PSR 307
13.2.9線性PSR與POMDP的關聯307
13.2.10線性PSR的理論結果308
13.3 PSR模型學習308
13.3 .1發現問題308
13.3.2學習問題309
13.3.3估計系統動態矩陣309
13.4規劃與PSR 309
13.5 PSR的擴展310
13.6其他具有預測性定義狀態的模型311
13.6.1可觀測算子模型311
13.6. 2預測線性高斯模型312
13.6.3時序差分網絡312
13.6.4分集自動機312
13.6.5指數族PSR 313
13.6.6轉換PSR 313
13.7總結313
參考文獻314
第14章博弈論和多學習器強化學習317
14.1簡介317
14.2重複博弈319
14.2.1博弈論319
14.2.2重複博弈中的強化學習322
14.3順序博弈325
14.3.1馬爾可夫博弈326
14.3.2馬爾可夫博弈中的強化學習327
14.4在多學習器系統中的稀疏交互330
14.4.1多等級學習330
14.4.2協調學習與稀疏交互331
14.5延伸閱讀334
參考文獻334
第15章去中心化的部分可觀察馬爾可夫決策過程338
15.1簡介338
15.2 Dec-POMDP框架339
15.3歷史狀態與策略340
15.3.1歷史狀態341
15.3.2策略341
15.3.3策略的結構342
15.3.4聯合策略的質量343
15.4有限域的Dec-POMDP的解決方案344
15.4.1窮舉搜索和Dec-POMDP複雜性344
15.4.2交替最大化344
15.4.3 Dec-POMDP的最優價值函數345
15.4.4前推法:啟發式搜索348
15.4.5後推法:動態規劃350
15.4.6其他有限域的方法353
15.5延伸閱讀353
15.5.1一般化和特殊問題353
15.5.2有限Dec-POMDP 354
15.5.3強化學習355
15.5.4通信356
參考文獻356
第五部分其他應用領域
第16章強化學習與心理和神經科學之間的關係364
16.1簡介364
16.2經典(巴甫洛夫)條件反射365
16.2.1行為365
16.2.2理論366
16.2. 3小結和其他注意事項367
16.3操作性(工具性)條件反射368
16.3.1動作368
16.3.2理論369
16.3.3基於模型的控制與無模型的控制370
16.3.4小結和其他注意事項371
16.4多巴胺371
16.4.1多巴胺作為獎勵預測誤差372
16.4.2多巴胺的強化信號的作用372
16.4.3小結和其他注意事項373
16.5基底神經節373
16.5.1基底神經節概述374
16.5.2紋狀體的神經活動374
16.5.3皮質基神經節丘腦循環375
16.5.4小結和其他注意事項377
16.6總結378
參考文獻378
第17章遊戲領域的強化學習387
17.1簡介387
17.1.1目標和結構387
17.1.2 範圍388