強化學習
餘欣航
- 出版商: 電子工業
- 出版日期: 2024-04-01
- 售價: $419
- 貴賓價: 9.5 折 $398
- 語言: 簡體中文
- 頁數: 280
- ISBN: 7121476614
- ISBN-13: 9787121476617
- 
    相關分類:
    
      Reinforcement
 
立即出貨 (庫存 < 4)
買這商品的人也買了...
- 
                
                   類神經網路與模糊控制理論入門與應用 類神經網路與模糊控制理論入門與應用$350$315
- 
                
                   機器學習 機器學習$648$616
- 
                
                   $474深入理解機器學習:從原理到算法 (Understanding Machine Learning : From Theory to Algorithms) $474深入理解機器學習:從原理到算法 (Understanding Machine Learning : From Theory to Algorithms)
- 
                
                   $301神經網絡與深度學習 $301神經網絡與深度學習
- 
                
                   $474深度學習 : Caffe 之經典模型詳解與實戰 $474深度學習 : Caffe 之經典模型詳解與實戰
- 
                
                   $245深度學習:原理與應用實踐 $245深度學習:原理與應用實踐
- 
                
                   Deep Learning - Hardware Design Deep Learning - Hardware Design$680$646
- 
                
                   FLAG'S 創客‧自造者工作坊 -- Arduino 認證集訓班 -- 求職×升學×進修 超前部署 FLAG'S 創客‧自造者工作坊 -- Arduino 認證集訓班 -- 求職×升學×進修 超前部署$999$899
- 
                
                   $446電力大數據全生命週期管理與技術 $446電力大數據全生命週期管理與技術
- 
                
                   電力電子 PSIM 模擬與應用 電力電子 PSIM 模擬與應用$474$450
- 
                
                   強化學習導論 強化學習導論$400$360
- 
                
                   動手學強化學習 動手學強化學習$539$512
- 
                
                   $407React 全棧式實戰開發入門 (微課視頻版) $407React 全棧式實戰開發入門 (微課視頻版)
- 
                
                   圖解資訊系統安全, 2/e 圖解資訊系統安全, 2/e$400$360
- 
                
                   資料科學入門完全指南:資料分析的觀念 處理 實作 資料科學入門完全指南:資料分析的觀念 處理 實作$700$553
- 
                
                   PSR 全方位問題分析與解決法:1套架構X1張表格X20個工具,李良猷從破解難題到發現機會的實戰思維 PSR 全方位問題分析與解決法:1套架構X1張表格X20個工具,李良猷從破解難題到發現機會的實戰思維$460$363
- 
                
                   資訊與網路安全概論, 7/e 資訊與網路安全概論, 7/e$650$618
- 
                
                   $454智能演化優化 $454智能演化優化
- 
                
                   $301深度強化學習原理與實踐 $301深度強化學習原理與實踐
- 
                
                   強化學習與最優控制 強化學習與最優控制$834$792
- 
                
                   $473Python 金融量化實戰固定收益類產品分析 $473Python 金融量化實戰固定收益類產品分析
- 
                
                   資料結構-使用 Python (增訂版) 資料結構-使用 Python (增訂版)$550$495
- 
                
                   台灣之光物件辨識 - 最新 YOLO 原理精讀+實戰 台灣之光物件辨識 - 最新 YOLO 原理精讀+實戰$800$632
- 
                
                   演算法 圖解原理 x Python 實作 x 創意應用 王者歸來, 4/e 演算法 圖解原理 x Python 實作 x 創意應用 王者歸來, 4/e$780$616
- 
                
                   $407Joy RL:強化學習實踐教程 $407Joy RL:強化學習實踐教程
商品描述
本書詳細介紹了強化學習的理論推導、算法細節。全書共12章,包括強化學習概述、馬爾可夫決策過程、退化的強化學習問題、環境已知的強化學習問題、基於價值的強化學習算法、基於策略的強化學習算法、AC型算法、基於模型的強化學習算法等相關知識。本書系統性強、概念清晰,內容簡明通俗。除了側重於理論推導,本書還提供了許多便於讀者理解的例子,以及大量被實踐證明有效的算法技巧,旨在幫助讀者進一步瞭解強化學習領域的相關知識,提升其現實中的工程能力。本書可作為高等院校數學、電腦、人工智能等相關專業的強化學習教材,但需要有機器學習、深度學習等前置課程作為基礎。
目錄大綱
第1章 緒論	1
1.1  強化學習是什麼	1
1.2  強化學習的基本思想	3
1.2.1  從環境中產生數據	3
1.2.2  求解最優策略	5
1.3  強化學習為什麼重要	6
1.4  本書內容介紹	9
參考文獻	10
第2章 馬爾可夫決策過程	11
2.1  馬爾可夫過程	11
2.2  馬爾可夫決策過程的定義	12
2.3  馬爾可夫過程與馬爾可夫決策過程的對比	15
2.4  馬爾可夫決策過程的分類	15
2.4.1  馬爾可夫決策過程是否發生退化	16
2.4.2  環境是否已知	17
2.4.3  環境的確定性與隨機性	18
2.4.4  馬爾可夫決策過程的時齊性	20
2.4.5  狀態與動作的連續性	22
*2.4.6  時間的連續性	23
2.4.7  小結	24
2.5  馬爾可夫決策過程的獎勵函數	25
思考題	26
參考文獻	27
第3章 退化的強化學習問題	28
3.1  盲盒售貨機問題	28
3.2  探索-利用困境	31
3.3  各種不同的探索策略	33
3.3.1  -貪心策略	33
3.3.2  玻爾茲曼探索策略	35
3.3.3  上置信界策略	36
3.4  總結	36
思考題	37
參考文獻	37
第4章 最優控制	38
4.1  基於價值的思想	38
4.1.1  三連棋遊戲策略	38
4.1.2  價值的定義	42
4.1.3  基於價值和基於策略	45
4.1.4  小結	46
思考題	47
4.2  動態規劃	47
4.2.1  策略疊代法	47
4.2.2  雅可比疊代法	48
4.2.3  值疊代法	50
4.2.4  軟提升	51
4.2.5  小結	53
思考題	54
4.3  LQR控制	55
4.3.1  基本LQR控制問題	55
4.3.2  LQR控制器	56
*4.3.3  環境隨機的LQR控制問題	59
4.3.4  iLQR控制器	61
4.3.5  實時規劃	63
4.3.6  小結	64
思考題	65
4.4  總結	65
參考文獻	66
第5章 基於價值的強化學習	68
5.1  Q-Learning	68
5.1.1  Q表格	69
5.1.2  產生數據集的方式:探索與利用	69
5.1.3  探索策略	71
5.1.4  使用訓練數據的方法:經驗回放	73
思考題	74
5.2  Sarsa	74
5.2.1  基本Sarsa算法	74
5.2.2  同策略與異策略	76
5.2.3  n步Sarsa	77
5.2.4  -return算法	78
*5.2.5  n步Q-Learning	79
思考題	80
5.3  DQN及其變體	81
5.3.1  固定Q目標結構	81
5.3.2  雙重DQN	84
5.3.3  優先回放機制	86
5.3.4  優勢函數	88
5.3.5  Dueling DQN	90
*5.3.6  Rainbow	92
思考題	94
*5.4  NAF	94
*5.4.1  標準化優勢函數	94
*5.4.2  NAF的訓練	96
5.5  總結:基於價值的強化學習算法	97
參考文獻	98
第6章 策略函數與策略梯度	100
6.1  策略函數與期望回報	100
6.2  無梯度方法	101
6.2.1  增強隨機搜索	102
6.2.2  交叉熵算法	104
6.2.3  進化算法	104
6.3  策略梯度	106
6.3.1  策略網絡的構造	106
6.3.2  策略梯度的計算	108
6.3.3  基本策略梯度算法	111
*6.3.4  動作連續的策略梯度	113
6.4  策略梯度的訓練技巧	114
6.4.1  基準法	114
6.4.2  經驗回放	116
6.4.3  探索策略	118
6.5  總結	119
思考題	120
參考文獻	121
第7章 AC算法	122
7.1  基本AC算法	122
7.1.1  AC算法的出發點	122
7.1.2  化簡策略梯度公式	123
7.1.3  AC算法的基本思想	126
7.1.4  單步更新與回合更新	128
思考題	129
7.2  AC算法的訓練技巧	129
7.2.1  廣義優勢函數估計	129
7.2.2  控制訓練兩個網絡的步調	131
7.2.3  ACER	133
思考題	134
7.3  A3C與A2C	135
7.3.1  並行訓練	135
7.3.2  A3C	137
7.3.3  A2C	140
思考題	141
參考文獻	141
第8章  AC型算法	143
8.1  自然梯度法	143
8.1.1  牛頓法	144
8.1.2  信賴域方法	146
8.1.3  近似點法	146
*8.1.4  自然策略梯度	147
8.2  TRPO與PPO算法	149
8.2.1  策略提升	149
8.2.2  TRPO算法	151
8.2.3  PPO算法	152
8.2.4  TRPO與PPO算法的訓練技巧	155
8.2.5  小結	156
思考題	157
8.3  DDPG	157
8.3.1  動作連續問題的網絡結構	158
8.3.2  從基於價值的角度理解DDPG算法	158
8.3.3  DDPG算法及訓練技巧	159
8.3.4  確定策略下的策略梯度	162
8.3.5  從基於策略的角度理解DDPG算法	163
思考題	165
*8.4  Soft AC	165
8.5  總結:基於策略的算法	168
8.5.1  基於價值和基於策略	169
8.5.2  偏差-方差取捨	170
8.5.3  策略的空間	172
8.5.4  訓練數據的產生與使用	172
8.5.5  小結	173
參考文獻	174
第9章  基於模型的基本思想	175
9.1  MBRL概述	175
9.2  模型是什麼	177
9.2.1  各種模型及其基本用法	178
9.2.2  更多的模型變體	179
9.2.3  模型的一些特點	180
*9.2.4  對模型的理解	185
思考題	188
9.3  如何使用黑盒模型	189
9.3.1  用黑盒模型增廣數據	189
9.3.2  權衡數據成本與準確性	191
9.3.3  黑盒模型的其他用途	193
9.3.4  小結	194
思考題	194
9.4  如何使用白盒模型	195
9.4.1  用白盒模型輔助進行策略優化	195
9.4.2  用白盒模型解最優控制	197
9.4.3  小結	199
思考題	199
參考文獻	200
第10章  基於模型的強化學習進階	202
10.1  如何學習模型	202
10.1.1  讓學習更符合最終目標	202
10.1.2  讓學習本身成為目標	203
10.1.3  以學習作為唯一目標	206
10.1.4  小結	209
思考題	209
10.2  世界模型	210
10.2.1  觀察	210
10.2.2  POMDP	212
10.2.3  為世界建模	214
10.2.4  Dreamer	218
思考題	220
10.3  實時規劃	221
10.3.1  實時規劃的基本思想	221
10.3.2  蒙特卡洛樹搜索	224
10.3.3  模型預測控制	230
思考題	233
10.4  MBRL算法思想總結	233
參考文獻	235
*第11章  連續時間的最優控制	238
11.1  時間連續的最優控制問題	238
11.2  H-J-B方程	239
11.2.1  連續時間的貝爾曼方程	239
*11.2.2  用H-J-B方程求解LQR控制問題	242
11.2.3  總結:關於價值的方程	245
思考題	247
*11.3  變分原理	247
11.3.1  從有窮維空間到無窮維空間	247
11.3.2  變分問題	250
*11.3.3  歐拉-拉格朗日方程	252
*11.3.4  用變分法求解最優控制問題	255
11.3.5  總結:策略的最優化	257
思考題	258
參考文獻	258
*第12章  其他強化學習相關內容	259
12.1  獎勵函數的改造與混合	259
12.2  逆向強化學習	261
12.3  層次強化學習	262
12.4  離線強化學習	264
參考文獻	266

 
     
     
     
     
     
    
 
     
    
 
    