新一代 AI 霸主：深度強化學習從基礎開始到專案開發

Name: 新一代 AI 霸主：深度強化學習從基礎開始到專案開發
Price: 774 TWD
Availability: InStock
Author: 董豪、丁子涵、仉尚航
ISBN: 9860776822

董豪、丁子涵、仉尚航

預覽內頁

出版商: 深智
出版日期: 2022-02-20
定價: $980
售價: 7.9 折 $774
語言: 繁體中文
頁數: 656
裝訂: 平裝
ISBN: 9860776822
ISBN-13: 9789860776829
相關分類: Reinforcement
此書翻譯自: 深度強化學習：基礎、研究與應用

立即出貨(限量) (庫存=3)

買這商品的人也買了...

~~$1,000~~ $790

Deep learning 深度學習必讀 - Keras 大神帶你用 Python 實作 (Deep Learning with Python)
~~$780~~ $663

Python 技術者們 - 練功！老手帶路教你精通正宗 Python 程式 (The Quick Python Book, 3/e)
~~$1,200~~ $1,020

深度學習 (Deep Learning)(繁體中文版)
~~$690~~ $455

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)
~~$750~~ $638

NumPy 高速運算徹底解說 - 六行寫一隻程式？你真懂深度學習？手工算給你看！
~~$1,200~~ $948

極詳細 + 超深入：最新版 TensorFlow 1.x/2.x 完整工程實作
~~$580~~ $493

深度學習的數學地圖 -- 用 Python 實作神經網路的數學模型 (附數學快查學習地圖)
~~$420~~ $357

圖解量子電腦入門：8堂基礎課程 + 必懂關鍵詞解說，從計算原理到實務應用、通訊到演算，破解讓人類大躍進的科技新浪潮
~~$780~~ $663

強化式學習：打造最強 AlphaZero 通用演算法
~~$1,000~~ $790

深度強化式學習 (Deep Reinforcement Learning in Action)
~~$1,200~~ $948

Reinforcement Learning｜強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)
~~$599~~ $539

資料科學的統計實務 : 探索資料本質、扎實解讀數據，才是機器學習成功建模的第一步
~~$680~~ $612

機器學習的統計基礎 : 深度學習背後的核心技術
~~$780~~ $663

Python 資料分析必備套件！Pandas 資料清理、重塑、過濾、視覺化 (Pandas 1.x Cookbook, 2/e)
~~$720~~ $561

Python 出神入化：Clean Coder 才懂的 Pythonic 技法，為你的程式碼畫龍點睛！ (Clean Code in Python, 2/e)
~~$1,200~~ $948

打下最紮實 AI 基礎不依賴套件：手刻機器學習神經網路穩健前進
~~$890~~ $703

OpenCV 影像創意邁向 AI 視覺王者歸來 (全彩印刷)
~~$750~~ $637

集成式學習：Python 實踐！整合全部技術，打造最強模型 (Hands-On Ensemble Learning with Python: Build highly optimized ensemble machine learning models using scikit-learn and Keras)
~~$880~~ $695

演算法戰鬥營：爆量題庫新手燒腦篇
~~$880~~ $695

一本書秒殺電腦視覺最新應用：80個 Python 大師級實例
~~$630~~ $535

Python 幫幫忙！用程式思維解決現實世界問題 (Real-World Python: A Hacker's Guide to Solving Problems with Code)
~~$880~~ $695

打好 AI 的基礎：一探機器學習底層數學運作
~~$600~~ $396

演算法洞見：遞推與遞迴
~~$1,200~~ $948

Keras 大神歸位：深度學習全面進化！用 Python 實作 CNN、RNN、GRU、LSTM、GAN、VAE、Transformer
~~$834~~ $792

深度強化學習圖解

商品描述

本書是為「深度強化學習」的專家所提供的最佳參考書！
從 2013 年開始，深度強化學習已漸漸地以多種方式改變了我們的生活和世界，會下棋的AlphaGo技術展示了超過專業選手的理解能力的"圍棋之美"。

類似的情況也會發生在技術、醫療和金融領域。深度強化學習探索了一個人類最基本的問題：人類是如何透過與環境互動進行學習的？這個機制可能成為逃出“巨量資料陷阱”的關鍵因素，作為一條強人工智慧的必經之路，通向人類智慧尚未企及的地方。

本書由一群對機器學習充滿熱情的極強專家完成，展示深度強化學習的世界，透過實例和經驗介紹，加深對深度強化學習的理解。

本書覆蓋內容範圍之廣，從深度強化學習的基礎理論知識到包含程式細節的技術實現描述，是初學者和科學研究人員非常好的學習教材。

本書特色：
●深度學習精解
〇強化學習入門指引
●深度Q網路，DQN、Double DQN、Actor-Critic
〇模仿學習
●整合學習詳解
〇分層、多智慧體強化學習
●平行計算
〇Learning to Run實作
●圖型強化實作
〇模擬環境機器人實作
●Arena多智慧體強化學習平台實作
〇強化學習技巧及最完整所有演算法說明實作

作者簡介

董豪
北京大學計算機學院、前沿計算研究中心助理教授、博士生導師，鵬城國家實驗室及浙江省北大資訊技術高等研究院雙聘成員。於2019年獲得英國帝國理工學院博士學位，研究方向為計算機視覺和機器人。致力於推廣人工智慧技術，是TensorLayer的創始人並獲得ACM MM最佳開源軟體獎。

丁子涵
英國帝國理工學院碩士。獲普林斯頓大學博士生全額獎學金，曾
在加拿大 Borealis AI、騰訊 Robotics X 實驗室有過工作經歷。大學就讀中
國科學技術大學，獲物理和電腦雙學位。研究方向主要涉及強化學習、機
器人控制、電腦視覺等。在 ICRA、NeurIPS、AAAI、IJCAI、Physical
Review 等頂級期刊與會議發表多篇論文，是 TensorLayer-RLzoo 、
TensorLet 和Arena 開放原始碼專案的貢獻者。

仉尚航
北京大學計算機學院助理教授、研究員。於2018年博士畢業於美國卡內基梅隆大學，後於2020年初加入加州大學伯克利分校BAIR實驗室（Berkeley AI Research Lab）任博士後研究員。研究方向主要為開放環境泛化機器學習理論與系統，同時在計算機視覺和強化學習方向擁有豐富研究經驗。在人工智慧頂級期刊和會議上發表論文30餘篇，並申請5項美中專利。榮獲世界人工智慧頂級會議AAAI'2021 最佳論文獎，美國2018 "EECS Rising Star"，Adobe學術合作基金， Qualcomm創新獎提名等。曾多次在國際頂級會議NeurIPS、ICML上組織Workshop，多次作為國際旗艦期刊和會議的審稿人或程式委員，擔任AAAI 2022 高級程式委員。

目錄大綱

基礎部分
01 深度學習入門
1.1 簡介
1.2 感知器
1.3 多層感知器
1.4 啟動函數
1.5 損失函數
1.6 最佳化
1.7 正則化
1.8 卷積神經網路
1.9 循環神經網路
1.10 深度學習的實現範例

02 強化學習入門
2.1 簡介
2.2 線上預測和線上學習
2.3 馬可夫過程
2.4 動態規劃
2.5 蒙地卡羅
2.6 時間差分學習
2.7 策略最佳化

03 強化學習演算法分類
3.1 以模型為基礎的方法和無模型的方法
3.2 以價值為基礎的方法和以策略為基礎的方法
3.3 蒙地卡羅方法和時間差分方法
3.4 線上策略方法和離線策略方法

04 深度Q 網路
4.1 Sarsa 和 Q-Learning
4.2 為什麼使用深度學習:價值函數逼近
4.3 DQN
4.4 Double DQN
4.5 Dueling DQN
4.6 優先經驗重播
4.7 其他改進內容：多步學習、雜訊網路和值分佈強化學習
4.8 DQN 程式實例

05 策略梯度
5.1 簡介
5.2 REINFORCE：初版策略梯度
5.3 Actor-Critic
5.4 生成對抗網路和Actor-Critic
5.5 同步優勢Actor-Critic
5.6 非同步優勢Actor-Critic
5.7 信賴域策略最佳化
5.8 近端策略最佳化
5.9 使用Kronecker 因數化信賴域的Actor-Critic
5.10 策略梯度程式例子

06 深度Q 網路和Actor-Critic 的結合
6.1 簡介
6.2 深度確定性策略梯度演算法
6.3 孿生延遲DDPG 演算法
6.4 柔性Actor-Critic 演算法
6.5 程式例子

研究部分
07 深度強化學習的挑戰
7.1 樣本效率
7.2 學習穩定性
7.3 災難性遺忘
7.4 探索
7.5 元學習和表徵學習
7.6 多智慧體強化學習
7.7 模擬到現實
7.8 大規模強化學習
7.9 其他挑戰

08 模仿學習
8.1 簡介
8.2 行為複製方法
8.3 逆向強化學習方法
8.4 從觀察量進行模仿學習
8.5 機率性方法
8.6 模仿學習作為強化學習的初始化
8.7 強化學習中利用示範資料的其他方法

09 整合學習與規劃
9.1 簡介
9.2 以模型為基礎的方法
9.3 整合模式架構
9.4 以模擬為基礎的搜索

10 分層強化學習
10.1 簡介
10.2 選項框架
10.3 封建制強化學習
10.4 其他工作

11 多智慧體強化學習
11.1 簡介
11.2 最佳化和均衡
11.3 競爭與合作

12 平行計算
12.1 簡介
12.2 同步和非同步
12.3 平行計算網路
12.4 分散式強化學習演算法
12.5 分散式運算架構

應用部分
13 Learning to Run
13.1 NeurIPS 2017 挑戰：Learning to Run
13.2 訓練智慧體

14 堅固的圖型增強
14.1 圖型增強
14.2 用於堅固處理的強化學習

15 AlphaZero
15.1 簡介
15.2 組合博弈
15.3 蒙地卡羅樹搜索
15.4 AlphaZero：棋類遊戲的通用演算法

16 模擬環境中機器人學習
16.1 機器人模擬
16.2 強化學習用於機器人學習任務

17 Arena：多智慧體強化學習平台
17.1 安裝
17.2 用Arena 開發遊戲
17.3 MARL訓練