強化學習 (微課版)
袁莎、白朔天、唐傑
- 出版商: 清華大學
- 出版日期: 2021-10-01
- 定價: $414
- 售價: 8.5 折 $352
- 語言: 簡體中文
- 頁數: 276
- 裝訂: 平裝
- ISBN: 7302587949
- ISBN-13: 9787302587941
-
相關分類:
Reinforcement、化學 Chemistry
立即出貨 (庫存=1)
買這商品的人也買了...
-
$352量化投資專家系統開發與策略實戰
-
$458Python 金融大數據挖掘與分析全流程詳解
-
$403機器學習理論導引
-
$980$774 -
$680$537 -
$301算法設計與分析, 4/e (微課視頻版)
-
$551OpenCV 4 機器學習算法原理與編程實戰
-
$880$695 -
$534$507 -
$680$537 -
$520$406 -
$469$446 -
$352深度強化學習核心算法與應用
-
$536軟件開發的 201個原則
-
$374$356 -
$556Python 大數據分析與應用實戰
-
$602深入理解 Django:框架內幕與實現原理
-
$708$673 -
$284Python 機器學習 — 原理、算法及案例實戰 -- 微課視頻版
-
$356統計學圖鑒
-
$407超簡單:用 Python 讓 Excel 飛起來 (核心模塊語法詳解篇)
-
$1,200$948 -
$305計算機操作系統(第4版·微課視頻版)
-
$305大數據分析:Python 爬蟲、數據清洗和數據可視化, 2/e (微課視頻版)
-
$580$458
相關主題
商品描述
本書構建了一個完整的強化學習入門路徑,深入淺出地介紹了強化學習算法的基本原理和實現方法。本書 首先回顧了相關預備知識,包括數學基礎和機器學習基礎,然後先介紹強化學習的基本概念,給出強化學習的 數學框架(馬爾可夫決策過程),隨後介紹強化學習的求解算法,包括表格求解法(動態規劃法、蒙特卡洛法 和時序差分法),以及近似求解法(值函數近似法、策略梯度法和深度強化學習)。本書最後一部分為實踐與前 沿,實踐部分基於一個相同的例子實現了強化學習領域的主流基礎算法,前沿部分介紹了強化學習領域的** 研究進展。本書配有相當數量的習題供練習,配套代碼基於 Python 實現,源代碼均已開源,可開放獲取。 本書可作為理工科本科生、研究生的“強化學習”課程的教材,也可作為相關從業者掌握強化學習的入門 參考書。
作者簡介
袁莎,清華大學計算機系博士後,合作導師為唐杰教授,主持一項國家自然科學基金青年基金項目和一項博士後科學基金面上項目。唐杰 IEEE Fellow,清華大學計算機系教授、系副主任,獲國家傑出青年科學基金、王選傑青獎。研究人工智能、認知圖譜、數據挖掘、社交網絡和機器學習。發表論文300餘篇,獲ACM SIGKDD Test-of-Time Award(十年最佳論文)。主持研發了超大規模預訓練模型“悟道”,參數規模超過1.75萬億。之前還研發了研究者社會網絡挖掘系統AMiner,吸引全球220個國家/地區2000多萬用戶。擔任國際期刊IEEE T. on Big Data、AI OPEN主編以及WWW’23大會主席。獲國家科技進步二等獎、北京市科技進步一等獎、北京市專利獎一等獎、人工智能學會科技進步一等獎、KDD傑出貢獻獎。
目錄大綱
目 錄
I 概 述
第1章 導論 3
1.1 強化學習簡介 3
1.1.1 兩個主要特徵 3
1.1.2 與機器學習的關系 4
1.2 強化學習發展史 5
1.2.1 試錯學習 6
1.2.2 最優控制 6
1.2.3 時序差分學習 7
1.2.4 深度強化學習 7
1.3 本書的主要內容 8
1.4 本章小結 10
II 預 備 知 識
第2章 概率統計與隨機過程 13
2.1 概率論 13
2.1.1 集合 13
2.1.2 概率 15
2.1.3 隨機試驗與隨機事件 16
2.1.4 條件概率與獨立事件 16
2.1.5 隨機變量 18
2.1.6 期望與方差 18
2.1.7 概率分佈 19
2.2 統計學基礎 23
2.2.1 大數定律 23
2.2.2 中心極限定理 24
2.3 隨機過程 27
2.3.1 基本概念 27
2.3.2 分佈函數 29
2.3.3 基本類型 29
2.3.4 馬爾可夫過程 30
2.3.5 馬爾可夫鏈的狀態分類 30
2.3.6 平穩分佈 34
2.4 本章小結 36
第3章 機器學習 37
3.1 基本概念 37
3.2 線性回歸 39
3.3 邏輯回歸 41
3.3.1 邏輯回歸模型 41
3.3.2 邏輯回歸指標 43
3.3.3 邏輯回歸算法 46
3.4 隨機梯度下降 47
3.4.1 隨機梯度下降法 47
3.4.2 基於 SGD 實現邏輯回歸 49
3.5 本章小結 50
第4章 神經網絡 51
4.1 神經元 51
4.2 感知機 53
4.2.1 感知機模型 53
4.2.2 感知機指標 54
4.2.3 感知機算法 55
4.3 神經網絡 59
4.3.1 神經網絡模型 59
4.3.2 神經網絡指標 61
4.3.3 神經網絡算法 61
4.3.4 梯度消失現象 66
4.4 本章小結 68
第5章 深度學習 69
5.1 深度神經網絡 69
5.2 捲積神經網絡 70
5.2.1 圖像 70
5.2.2 捲積 71
5.2.3 填充 73
5.2.4 池化 74
5.3 循環神經網絡 74
5.3.1 循環神經網絡的基本結構 74
5.3.2 LSTM 結構 76
5.3.3 深度循環神經網絡 77
5.4 本章小結 78
III 強化學習基礎
第6章 強化學習概述 81
6.1 強化學習框架 81
6.1.1 基本框架 81
6.1.2 完全觀測與不完全觀測 82
6.2 強化學習要素 83
6.2.1 值函數 84
6.2.2 模型 85
6.3 本章小結 85
第7章 馬爾可夫決策過程 86
7.1 馬爾可夫過程 86
7.1.1 基本概念 86
7.1.2 轉移概率 87
7.2 馬爾可夫獎勵過程 90
7.3 馬爾可夫決策過程 94
7.3.1 形式化表示 94
7.3.2 策略和值函數 95
7.3.3 MDP 與 MRP 的關系 100
7.4 最優化 100
7.4.1 最優策略 100
7.4.2 貝爾曼最優方程 101
7.5 本章小結 104
IV 表格求解法
第8章 動態規劃法 107
8.1 動態規劃 107
8.1.1 算法基礎知識 107
8.1.2 動態規劃基礎知識 111
8.1.3 動態規劃求解 MDP 115
8.2 基於動態規劃的預測(策略評估) 116
8.3 策略改進 120
8.4 基於動態規劃的控制 122
8.4.1 策略迭代 122
8.4.2 值函數迭代 123
8.5 廣義策略迭代 125
8.6 本章小結 125
第9章 蒙特卡洛法 126
9.1 蒙特卡洛法簡介 127
9.1.1 投點法 127
9.1.2 平均值法 129
9.2 21 點遊戲 132
9.2.1 遊戲規則 132
9.2.2 模擬交互序列 137
9.2.3 Gym 139
9.3 蒙特卡洛預測 141
9.4 蒙特卡洛控制 145
9.5 增量均值法 152
9.6 本章小結 153
第10章 時序差分法 154
10.1 TD(0) 預測 154
10.2 TD(0) 控制:Sarsa(0) 算法 157
10.3 n 步時序差分預測 163
10.4 n 步時序差分控制:n 步 Sarsa 算法 164
10.5 本章小結 166
第11章 異策略學習概述 167
11.1 重要性採樣 167
11.1.1 基本重要性採樣 167
11.1.2 自歸一化重要性採樣 171
11.2 每次訪問與異策略學習 173
11.2.1 每次訪問 173
11.2.2 異策略學習 175
11.3 異策略蒙特卡洛控制 177
11.4 異策略時序差分控制:Q-Learning 180
11.5 本章小結 183
V 近似求解法
第12章 值函數近似法 187
12.1 值函數近似 187
12.2 值函數近似預測 188
12.3 值函數近似控制 190
12.4 線性函數逼近器 192
12.5 本章小結 194
第13章 策略梯度法 195
13.1 策略梯度 195
13.1.1 基本概念 195
13.1.2 策略梯度定理 196
13.2 蒙特卡洛策略梯度 198
13.3 帶基線的 REINFORCE 算法 200
13.4 A-C 算法 203
13.5 PPO 算法 205
13.6 本章小結 207
第14章 深度強化學習 209
14.1 DQN 算法 209
14.2 DDPG 算法 212
14.3 本章小結 214
VI 實踐與前沿
第15章 強化學習實踐 219
15.1 MountainCar-v0 環境介紹 219
15.2 表格式方法 222
15.2.1 Sarsa 算法 222
15.2.2 Q-Learning 算法 224
15.3 策略梯度法 225
15.3.1 REINFORCE 算法 225
15.3.2 A-C 算法 229
15.3.3 PPO 算法 233
15.4 深度強化學習 238
15.4.1 DQN 算法 238
15.4.2 DDPG 算法 243
15.5 本章小結 246
第16章 強化學習前沿 248
16.1 深度強化學習 248
16.2 多智能體強化學習 250
16.2.1 基於值函數 250
16.2.2 基於策略 251
16.2.3 基於 A-C 框架 252
16.3 多任務強化學習 253
16.3.1 多任務強化學習算法 254
16.3.2 多任務強化學習框架 256
16.4 本章小結 258
VII 附 錄
習題參考答案 (第8章 、第9章 ) 261
參考文獻 268
後記 275