深度強化學習:學術前沿與實戰應用

劉馳,王占健,戴子彭著

立即出貨

買這商品的人也買了...

相關主題

商品描述

本書共分為四篇,即深度強化學習、多智能體深度強化學習、多任務深度強化學習和深度強化學習的應用。
由淺入深、通俗易懂,涵蓋經典算法和近幾年的前沿技術進展。
特別是書中詳細介紹了每一種代表性算法的代碼原型實現,旨在理論與實踐相結合,讓讀者學有所得、學有所用。
第一篇(包含第1~3章)主要講解深度強化學習基礎,側重於單智能體強化學習算法,
相對簡單,有助於初級讀者理解,同時涵蓋了近幾年的經典算法和一些前沿的研究成果。
第二篇(包含第4~5章)主要側重於對多智能體深度強化學習的講解,
從多智能體強化學習基本概念到相關算法的講解和分析,
以多個極具代表性的算法為例帶領讀者逐步學習多智能體訓練及控制的理論與方法。
同時,還介紹了多智能體強化學習領域一些前沿學術成果。
第三篇(包含第6~7章)擴展到多任務場景,稱為多任務深度強化學習。
首先介紹了多任務強化學習的基本概念和相關基礎知識,隨後講解了部分經典的多任務深度強化學習算法。
第四篇(包含第8~11章)主要講解深度強化學習的實際應用,涉及遊戲
、機器人控制、計算機視覺和自然語言處理四大領域。
通過領域應用中思想和方法的講解,培養讀者跨領域解決實際問題的能力,
以幫助讀者熟練掌握和使用深度強化學習這一強大的方法來解決和優化實際工程領域中的問題。

作者簡介

劉馳

北京理工大學計算機學院副院長、教授、博士生導師,
英國工程技術學會會士(IET Fellow),IEEE高級會員(IEEE Senior Member)。
分別於清華大學和英國帝國理工學院獲得學士和博士學位,
曾任美國IBM TJ Watson研究中心和IBM中國研究院研究主管,並在德國電信研究總院(柏林)任博士後研究員。
研究方向為大數據與物聯網技術。
主持了國家自然科學基金、國家重點研發計劃課題、工信部、教育部、裝發預研等20餘省部級研究項目。
共發表SCI/EI論文百餘篇,其中ESI高被引論文2篇、CCF- A類論文20餘篇,
授權國內外發明專利14項,編寫書籍9本,Google Scholar索引3500餘次,H index為28。
現任國家自然科學基金會評專家、科技部重點研發計劃會評專家、教育部科技獎評審專家、
全國信標委技術委員會委員、中國電子學會理事、中國計算機學會青工委委員、
中國計算機學會物聯網/大數據/普適計算專委會委員、中國電子學會物聯網專委會委員/副秘書長、
中國自動化學會大數據專委會委員、中國通信學會物聯網專委會委員等;
以及IEEE Transactions on Network Science and Engineering編委、
IEEE ICC 2020 Symposium Chair for Next Generation Networking。
入選了國家人社部“高層次留學人才回國資助計劃”、中國科協“青年人才托舉工程”、
陝西省第八批“百人計劃(短期項目)”、中國產學研合作促進獎、中國電子學會優秀科技工作者、
國家“十二五”輕工業科技創新先進個人、2017年中國物聯網年度人物等。
並獲得省部級一等獎1項、二等獎1項、三等獎1項。

目錄大綱

前言
致謝
數學符號
第一篇深度強化學習
第1章深度強化學習基礎2
1.1強化學習2
1.1.1強化學習的發展歷史2
1.1.2強化學習簡介4
1.1.3深度強化學習簡介6
1.2馬爾可夫屬性和決策過程9
1.2.1馬爾可夫屬性9
1.2.2馬爾可夫決策過程11
1.3強化學習核心概念12
1.3.1值函數12
1.3.2動態規劃14
1.3.3時間(序)差分15
1.3 .4策略梯度16
1.3.5 actor-critic方法17
1.4 Q-learning 18
1.4.1 Q-learning簡介18
1.4.2算法19
1.4.3相關變量及影響20
1.4.4實現方法21

第2章深度強化學習算法22
2.1基於值的深度強化學習算法22
2.1.1深度Q網絡22
2.1.2深度雙Q網絡27
2.1.3競爭網絡架構31
2.1.4平均值DQN 33
2.1.5多DQN變種結合體:Rainbow 37
2.1.6基於動作排除的DQN 42
2.2基於策略的深度強化學習算法46
2.2.1循環確定性策略梯度46
2.2.2深度確定性策略梯度55
2.2.3信賴域策略優化62
2.2.4近端策略優化68
2.3基於模型的深度強化學習算法73
2.3.1基於模型加速的連續深度Q-learning 73
2.3.2範例模型探索80
2.3.3基於模型集成的信賴域策略優化88
2.3.4時間差分模型95
2.4基於分層的深度強化學習算法102
2.4.1分層深度強化學習102
2.4.2基於封建網絡的分層強化學習109
2.4.3基於隨機神經網絡的分層強化學習116

第3章分佈式深度強化學習123
3.1分佈式系統123
3.1.1分佈式系統簡介123
3.1.2分佈式系統的發展歷史124
3.1.3架構演進125
3.1.4主流分佈式系統框架128
3.2分佈式深度強化學習算法129
3.2.1分佈式近端策略優化129
3.2.2分佈式深度確定性策略梯度138
3.3分佈式深度強化學習框架145
3.3.1重要性加權Actor-Learner架構145
3.3.2分佈式優先經驗復用池153

第二篇多智能體深度強化學習
第4章多智能體深度強化學習基礎162
4.1多智能體強化學習162
4.1.1多智能體強化學習發展歷史162
4.1.2多智能體強化學習簡介164
4.1.3優勢和挑戰166
4.2部分可見馬爾可夫決策過程166
4.2.1 POMDP模型166
4.2.2 POMDP相關研究169
4.2.3 POMDP應用領域170

第5章多智能體深度強化學習算法171
5.1基於值函數的多智能體深度強化學習171
5.1.1基於DQN的多智能體網絡171
5.1.2增強智能體間學習174
5.1.3協同多智能體學習的價值分解網絡178
5.1.4多智能體深度強化學習的穩定經驗復用池182
5.1 .5單調值函數分解187
5.1.6深度強化學習中的對立智能體建模190
5.1.7平均場多智能體強化學習193
5.2基於策略的多智能體深度強化學習197
5.2.1基於自身策略的其他智能體行為預測197
5.2.2雙重平均方案201
5.2.3多智能體深度強化學習的統一博弈論方法208
5.3基於AC框架的多智能體深度強化學習212
5.3.1多智能體深度確定性策略梯度212
5.3.2多智能體集中規劃的價值函數策略梯度220
5.3.3多智能體系統的策略表示學習227
5.3.4部分可觀察環境下的多智能體策略優化231
5.3.5基於聯網智能體的完全去中心化MARL 236

第三篇多任務深度強化學習
第6章多任務深度強化學習基礎244
6.1簡介244
6.1.1理論概述244
6.1.2面臨的挑戰247
6 .2策略蒸餾法248

第7章多任務深度強化學習算法253
7.1無監督強化與輔助學習253
7.1.1算法介紹253
7.1.2算法分析255
7.1.3使用場景與優勢分析261
7.2使用漸進式神經網絡解決任務的複雜序列262
7.2.1算法介紹262
7.2.2算法分析262
7.2.3使用場景與優勢分析266
7.3基於單智能體的多任務共享模型267
7.3.1算法介紹267
7.3.2算法分析268
7.3.3使用場景與優勢分析272
7.4使用PopArt歸一化多任務更新幅度273
7.4.1算法介紹273
7.4.2算法分析274
7.4.3使用場景與優勢分析276

第四篇深度強化學習的應用
第8章遊戲278
8.1 Gym Retro遊戲平台278
8.1.1平台簡介278
8.1.2安裝Gym Retro平台281
8.1.3安裝Retro UI 282
8.1.4 Gym Retro主要函數說明283
8.2相關應用285
8.2.1 Pong遊戲285
8.2.2 CartPole 291
8.2.3 Flappy Bird 298
8.2.4 Gradius 302

第9章機器人控制312
9.1機器人導航312
9.1.1無地圖導航312
9.1.2社會感知機器人導航316
9.2路徑規劃321
9.3機器人視覺324

第10章計算機視覺327
10.1圖像327
10.1.1圖像字幕327
10.1.2圖像恢復332
10.2視頻337
10.2.1視頻字幕337
10.2.2視頻快進345
10.2.3視覺跟踪348

第11章自然語言處理354
11.1與知識庫交互的多輪對話智能體354
11.1.1概率KB查找355
11.1.2端到端KB-InfoBot 356
11.1.3總結359
11.2魯棒遠程監督關係提取359
11.2.1問題表述360
11.2.2使用基於策略的智能體重新分配訓練數據集363
11.2.3總結363
11.3非成對情感–情感翻譯363
11.3.1問題表述363
11.3.2訓練算法366
11.3.3總結367
縮寫參照表368
常用詞中英文對照371
參考文獻374