統計強化學習:現代機器學習方法 (Statistical Reinforcement Learning: Modern Machine Learning Approaches)

[日] 杉山將(Masashi Sugiyama)  著

立即出貨

買這商品的人也買了...

商品描述

強化學習技術是人工智能從感知智能向決策智能發展的關鍵技術之一;是基於控制論、心理學、生理學、認知科學、電腦科學等多學科交叉的新興機器學習技術。
本書是學習和研究強化學習技術的重要參考書籍,作者是日本人工智能領域知名學者、東京大學杉山將教授,譯者為南京大學電腦科學與技術系高陽教授。
全書將統計學習和強化學習結合,從模型無關策略迭代、模型無關策略搜索、模型相關強化學習三個技術路線角度,對強化學習函數估計中的基函數設計、樣本重用以及策略搜索、模型估計等做了深入淺出的介紹。本書適合於從事人工智能和機器學習研究和應用的專家學者、技術人員、研究生閱讀。

本書特色:
從現代機器學習的角度介紹了統計強化學習的基本概念和實用算法,為該領域提供了最新介紹。
涵蓋了各種類型的強化學習方法,包括基於模型和無模型的方法、策略迭代和策略搜索方法。
涵蓋了最近在數據挖掘和機器學習領域引入的方法,以便在強化學習和數據挖掘/機器學習研究人員之間提供系統橋梁。
呈現了最新的結果,包括強化學習的維數降低和風險敏感強化學習;介紹了許多示例來幫助讀者理解強化學習技術的直觀性和實用性。

目錄大綱

譯者序

前言
作者簡介
第一部分簡介
第1章強化學習介紹3 
 1.1強化學習3 
 1.2數學形式化8 
 1.3本書結構11 
  1.3.1模型無關策略迭代11 
  1.3.2模型無關策略搜索12 
  1.3.3基於模型的強化學習13 
第二部分模型無關策略迭代
第2章基於值函數近似的策略迭代17 
 2.1值函數17 
  2.1.1狀態值函數17 
  2.1.2狀態-動作值函數18 
 2.2最小二乘策略迭代19 
  2.2.1瞬時獎賞回歸20 
  2.2.2算法21 
  2.2.3正則化23 
  2.2.4模型選擇25 
 2.3本章小結26 
第3章值函數近似中的基函數設計27 
 3.1圖中的高斯核27 
  3.1. 1 MDP-誘導圖27 
  3.1.2通用高斯核28 
  3.1.3測地線高斯核29 
  3.1.4擴展到連續狀態空間30 
 3.2圖解說明30 
  3.2.1配置30 
  3.2.2測地線高斯核31 
  3.2 .3通用高斯核33
  3.2.4圖拉普拉斯特徵基33 
  3.2.5擴散小波35 
 3.3數值示例35 
  3.3.1機器人手臂控制35 
  3.3.2機器人導航39 
 3.4本章小結46 
第4章策略迭代中的樣本重用47 
 4.1形式化47 
 4.2離策略值函數近似48 
  4.2.1片段重要性加權49 
  4.2.2每次決策的重要性加權50 
  4.2.3自適應的每次決策重要性加權50 
  4.2.4圖解說明51 
 4.3展平參數的自動選擇54 
  4.3.1重要性加權交叉驗證54 
  4.3.2圖解說明55 
 4.4樣本重用策略迭代56 
  4.4.1算法56 
  4.4.2圖解說明56 
 4.5數值示例58 
  4.5.1倒立擺58 
  4.5.2小車爬山61 
 4.6本章小結64 
第5章策略迭代中的主動學習65 
 5.1主動學習的高效探索65 
  5.1.1問題配置65 
  5.1.2泛化誤差的分解66 
  5.1.3估計泛化誤差67 
  5.1.4設計採樣策略68 
  5.1.5圖解說明69
 5.2主動策略迭代72 
  5.2.1具有主動學習的樣本重用策略迭代72 
  5.2.2圖解說明73 
 5.3數值示例74 
 5.4本章小結76 
第6章魯棒策略迭代79 
 6.1策略迭代中的魯棒性和可靠性79 
  6.1.1魯棒性79 
  6.1.2可靠性80 
 6.2最小絕對策略迭代81 
  6.2.1算法81 
  6.2.2圖解說明81 
  6.2.3性質82 
 6.3數值示例83 
 6.4可能的拓展88 
  6.4.1 Huber損失88 
  6.4.2 pinball損失89 
  6.4.3 deadzone-linear損失90 
  6.4.4切比雪夫逼近90 
  6.4.5條件風險值91 
 6.5本章小結92 
第三部分模型無關策略搜索
第7章梯度上升的直接策略搜索95 
 7.1形式化95 
 7.2梯度方法96 
  7.2.1梯度上升96 
  7.2.2方差約簡的基線減法98 
  7.2.3梯度估計量的方差分析99 
 7.3自然梯度法101 
  7.3.1自然梯度上升101
  7.3.2圖解說明103 
 7.4計算機圖形中的應用:藝術家智能體104 
  7.4.1東方山水畫繪畫104 
  7.4.2狀態、動作和瞬時獎賞的設計106 
  7.4.3實驗結果111 
 7.5本章小結113 
第8章期望最大化的直接策略搜索117 
 8.1期望最大化方法117 
 8.2樣本重用119 
  8.2.1片段重要性加權119 
  8.2.2每次決策的重要性加權122 
  8.2.3自適應的每次決策重要性加權123 
  8.2 .4展平參數的自動選擇123 
  8.2.5樣本重用的加權獎賞回歸125 
 8.3數值示例125 
 8.4本章小結131 
第9章策略優先搜索133 
 9.1形式化133 
 9.2基於參數探索的策略梯度134 
  9.2.1策略優先的梯度上升134 
  9.2.2方差約簡的基線減法135 
  9.2.3梯度估計量的方差分析136 
  9.2.4數值示例138 
 9.3策略優先搜索中的樣本重用142 
  9.3.1重要性加權142 
  9.3.2基線減法的方差約簡144 
  9.3.3數值示例146 
 9.4本章小結153
第四部分基於模型的強化學習
第10章轉移模型估計157 
 10.1條件密度估計157 
  10.1.1基於回歸的方法157 
  10.1.2 ε-鄰域核密度估計158 
  10.1.3最小二乘條件密度估計159 
 10.2基於模型的強化學習161 
 10.3數值示例162 
  10.3.1連續型鏈條遊走162 
  10.3.2人形機器人控制167 
 10.4本章小結171 
第11章轉移模型估計的維度約簡173 
 11.1充分維度約簡173 
 11.2平方損失條件熵173 
  11.2.1條件獨立174 
  11.2.2利用SCE進行維度約簡175 
  11.2.3 SCE與平方損失互信息的關係176 
 11.3數值示例176 
  11.3.1人工和標準數據集176 
  11.3.2人形機器人179 
 11.4本章小結182 
參考文獻183