強化學習 (微課版)

袁莎、白朔天、唐傑

  • 強化學習 (微課版)-preview-1
  • 強化學習 (微課版)-preview-2
  • 強化學習 (微課版)-preview-3
強化學習 (微課版)-preview-1

買這商品的人也買了...

商品描述

本書構建了一個完整的強化學習入門路徑,深入淺出地介紹了強化學習算法的基本原理和實現方法。本書 首先回顧了相關預備知識,包括數學基礎和機器學習基礎,然後先介紹強化學習的基本概念,給出強化學習的 數學框架(馬爾可夫決策過程),隨後介紹強化學習的求解算法,包括表格求解法(動態規劃法、蒙特卡洛法 和時序差分法),以及近似求解法(值函數近似法、策略梯度法和深度強化學習)。本書最後一部分為實踐與前 沿,實踐部分基於一個相同的例子實現了強化學習領域的主流基礎算法,前沿部分介紹了強化學習領域的** 研究進展。本書配有相當數量的習題供練習,配套代碼基於 Python 實現,源代碼均已開源,可開放獲取。 本書可作為理工科本科生、研究生的“強化學習”課程的教材,也可作為相關從業者掌握強化學習的入門 參考書。

作者簡介

袁莎,清華大學計算機系博士後,合作導師為唐杰教授,主持一項國家自然科學基金青年基金項目和一項博士後科學基金面上項目。唐杰 IEEE Fellow,清華大學計算機系教授、系副主任,獲國家傑出青年科學基金、王選傑青獎。研究人工智能、認知圖譜、數據挖掘、社交網絡和機器學習。發表論文300餘篇,獲ACM SIGKDD Test-of-Time Award(十年最佳論文)。主持研發了超大規模預訓練模型“悟道”,參數規模超過1.75萬億。之前還研發了研究者社會網絡挖掘系統AMiner,吸引全球220個國家/地區2000多萬用戶。擔任國際期刊IEEE T. on Big Data、AI OPEN主編以及WWW’23大會主席。獲國家科技進步二等獎、北京市科技進步一等獎、北京市專利獎一等獎、人工智能學會科技進步一等獎、KDD傑出貢獻獎。

目錄大綱

目   錄
I 概 述
第1章  導論 3  
1.1  強化學習簡介   3 
1.1.1  兩個主要特徵  3 
1.1.2  與機器學習的關系 4 
1.2  強化學習發展史  5 
1.2.1  試錯學習 6 
1.2.2  最優控制 6 
1.2.3  時序差分學習 7 
1.2.4  深度強化學習 7 
1.3  本書的主要內容 8 
1.4  本章小結 10 

II 預 備 知 識
第2章  概率統計與隨機過程 13 
2.1  概率論   13 
2.1.1  集合  13 
2.1.2  概率 15 
2.1.3  隨機試驗與隨機事件 16 
2.1.4  條件概率與獨立事件 16 
2.1.5  隨機變量  18 
2.1.6  期望與方差 18 
2.1.7  概率分佈  19 
2.2  統計學基礎  23
2.2.1  大數定律   23 
2.2.2  中心極限定理 24 
2.3  隨機過程 27 
2.3.1  基本概念 27 
2.3.2  分佈函數 29 
2.3.3  基本類型 29 
2.3.4  馬爾可夫過程 30 
2.3.5  馬爾可夫鏈的狀態分類 30 
2.3.6  平穩分佈 34 
2.4  本章小結  36 

第3章  機器學習  37 
3.1  基本概念  37 
3.2  線性回歸  39 
3.3  邏輯回歸  41 
3.3.1  邏輯回歸模型 41 
3.3.2  邏輯回歸指標 43 
3.3.3  邏輯回歸算法 46 
3.4  隨機梯度下降 47 
3.4.1  隨機梯度下降法  47 
3.4.2  基於 SGD 實現邏輯回歸 49 
3.5  本章小結 50 

第4章  神經網絡 51 
4.1  神經元  51 
4.2  感知機 53 
4.2.1  感知機模型  53 
4.2.2  感知機指標 54 
4.2.3  感知機算法 55 
4.3  神經網絡 59 
4.3.1  神經網絡模型 59 
4.3.2  神經網絡指標 61 
4.3.3  神經網絡算法 61 
4.3.4  梯度消失現象 66 
4.4  本章小結 68 

第5章  深度學習 69 
5.1  深度神經網絡  69
5.2  捲積神經網絡 70 
5.2.1  圖像  70 
5.2.2  捲積  71 
5.2.3  填充 73 
5.2.4  池化  74 
5.3  循環神經網絡 74 
5.3.1  循環神經網絡的基本結構  74 
5.3.2  LSTM 結構   76 
5.3.3  深度循環神經網絡  77 
5.4  本章小結  78 

III 強化學習基礎
第6章  強化學習概述 81 
6.1  強化學習框架  81 
6.1.1  基本框架   81 
6.1.2  完全觀測與不完全觀測 82 
6.2  強化學習要素   83 
6.2.1  值函數   84 
6.2.2  模型   85 
6.3  本章小結 85 

第7章  馬爾可夫決策過程   86 
7.1  馬爾可夫過程  86 
7.1.1  基本概念   86 
7.1.2  轉移概率  87 
7.2  馬爾可夫獎勵過程  90 
7.3  馬爾可夫決策過程   94 
7.3.1  形式化表示 94 
7.3.2  策略和值函數 95 
7.3.3  MDP 與 MRP 的關系 100 
7.4  最優化  100 
7.4.1  最優策略 100 
7.4.2  貝爾曼最優方程 101 
7.5  本章小結  104

IV 表格求解法
第8章  動態規劃法 107 
8.1  動態規劃  107 
8.1.1  算法基礎知識  107 
8.1.2  動態規劃基礎知識  111 
8.1.3  動態規劃求解 MDP  115 
8.2  基於動態規劃的預測(策略評估) 116 
8.3  策略改進   120 
8.4  基於動態規劃的控制   122 
8.4.1  策略迭代  122 
8.4.2  值函數迭代  123 
8.5  廣義策略迭代    125 
8.6  本章小結  125 

第9章  蒙特卡洛法  126 
9.1  蒙特卡洛法簡介  127 
9.1.1  投點法   127 
9.1.2  平均值法  129 
9.2  21 點遊戲  132 
9.2.1  遊戲規則 132 
9.2.2  模擬交互序列 137 
9.2.3  Gym   139 
9.3  蒙特卡洛預測 141 
9.4  蒙特卡洛控制  145 
9.5  增量均值法  152 
9.6  本章小結  153 

第10章  時序差分法  154 
10.1  TD(0) 預測   154 
10.2  TD(0) 控制:Sarsa(0) 算法 157 
10.3  n 步時序差分預測  163 
10.4  n 步時序差分控制:n 步 Sarsa 算法 164 
10.5  本章小結  166 

第11章  異策略學習概述 167 
11.1  重要性採樣  167
11.1.1  基本重要性採樣  167 
11.1.2  自歸一化重要性採樣  171 
11.2  每次訪問與異策略學習 173 
11.2.1  每次訪問 173 
11.2.2  異策略學習  175 
11.3  異策略蒙特卡洛控制  177 
11.4  異策略時序差分控制:Q-Learning   180 
11.5  本章小結   183 

V 近似求解法
第12章  值函數近似法   187 
12.1  值函數近似   187 
12.2  值函數近似預測  188 
12.3  值函數近似控制   190 
12.4  線性函數逼近器  192 
12.5  本章小結   194 

第13章  策略梯度法 195 
13.1  策略梯度   195 
13.1.1  基本概念    195 
13.1.2  策略梯度定理  196 
13.2  蒙特卡洛策略梯度 198 
13.3  帶基線的 REINFORCE 算法 200 
13.4  A-C 算法  203 
13.5  PPO 算法  205 
13.6  本章小結   207 

第14章  深度強化學習  209 
14.1  DQN 算法  209 
14.2  DDPG 算法  212 
14.3  本章小結   214 

VI 實踐與前沿
第15章  強化學習實踐   219 
15.1  MountainCar-v0 環境介紹 219
15.2  表格式方法  222 
15.2.1  Sarsa 算法  222 
15.2.2  Q-Learning 算法 224 
15.3  策略梯度法  225 
15.3.1  REINFORCE 算法 225 
15.3.2  A-C 算法  229 
15.3.3  PPO 算法 233 
15.4  深度強化學習   238 
15.4.1  DQN 算法   238 
15.4.2  DDPG 算法  243 
15.5  本章小結  246 

第16章  強化學習前沿  248 
16.1  深度強化學習   248 
16.2  多智能體強化學習  250 
16.2.1  基於值函數   250 
16.2.2  基於策略  251 
16.2.3  基於 A-C 框架  252 
16.3  多任務強化學習  253 
16.3.1  多任務強化學習算法  254 
16.3.2  多任務強化學習框架   256 
16.4  本章小結   258 

VII 附 錄
習題參考答案 (第8章 、第9章 )   261 
參考文獻   268 
後記    275