深度強化式學習 (Deep Reinforcement Learning in Action)

Name: 深度強化式學習 (Deep Reinforcement Learning in Action)
Price: 850 TWD
Availability: InStock
Author: Alexander Zai、Brandon Brown 著
ISBN: 9863126527

Alexander Zai、Brandon Brown 著黃駿譯

預覽內頁

出版商: 旗標
出版日期: 2021-04-02
定價: $1,000
售價: 8.5 折 $850
語言: 繁體中文
頁數: 504
裝訂: 平裝
ISBN: 9863126527
ISBN-13: 9789863126522
相關分類: Reinforcement
此書翻譯自: Deep Reinforcement Learning in Action (Paperback)
相關翻譯: 深度強化學習實戰 (簡中版)

立即出貨 (庫存 > 10)

深度強化式學習 (Deep Reinforcement Learning in Action)-preview-1

買這商品的人也買了...

~~$680~~ $537

Deep Learning 2｜用 Python 進行自然語言處理的基礎理論實作
~~$1,200~~ $1,020

深度學習 (Deep Learning)(繁體中文版)
~~$690~~ $345

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)
~~$750~~ $638

NumPy 高速運算徹底解說 - 六行寫一隻程式？你真懂深度學習？手工算給你看！
~~$580~~ $458

機器學習的數學基礎 : AI、深度學習打底必讀
~~$580~~ $493

深度學習的數學地圖 -- 用 Python 實作神經網路的數學模型 (附數學快查學習地圖)
~~$780~~ $663

矽谷資深演算法大師：帶你學深度學習推薦系統 (附8頁彩頁)
~~$750~~ $637

GAN 對抗式生成網路 (GANs in Action: Deep learning with Generative Adversarial Networks)
~~$780~~ $663

強化式學習：打造最強 AlphaZero 通用演算法
~~$980~~ $774

寫給程式設計師的深度學習｜使用 fastai 和 PyTorch (Deep Learning for Coders with fastai and PyTorch)
~~$690~~ $538

Clean Code 學派的風格實踐：開發可靠、可維護又強健的 JavaScript (Clean Code in JavaScript)
~~$780~~ $616

Deep Learning 3｜用 Python 進行深度學習框架的開發實作
~~$520~~ $468

白話演算法！培養程式設計的邏輯思考 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
~~$480~~ $408

Python 刷題鍛鍊班：老手都刷過的 50 道程式題, 求職面試最給力 (Python Workout: 50 ten-minute exercises)
~~$880~~ $748

超圖解 ESP32 深度實作
~~$1,200~~ $948

Reinforcement Learning｜強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)
~~$599~~ $509

資料科學的建模基礎 : 別急著 coding！你知道模型的陷阱嗎？
~~$880~~ $695

完全自學！Go 語言 (Golang) 實戰聖經 (The Go Workshop: Learn to write clean, efficient code and build high-performance applications with Go)
~~$1,000~~ $850

核心開發者親授！PyTorch 深度學習攻略 (Deep Learning with Pytorch)
~~$620~~ $527

深度學習的 16 堂課：CNN + RNN + GAN + DQN + DRL, 看得懂、學得會、做得出！ (Deep Learning Illustrated: A Visual, Interactive Guide to Artificial Intelligence)
~~$680~~ $612

機器學習的統計基礎 : 深度學習背後的核心技術
~~$980~~ $774

新一代 AI 霸主：深度強化學習從基礎開始到專案開發
~~$1,200~~ $948

Keras 大神歸位：深度學習全面進化！用 Python 實作 CNN、RNN、GRU、LSTM、GAN、VAE、Transformer
~~$880~~ $695

Scikit-learn 詳解與企業應用：機器學習最佳入門與實戰
~~$680~~ $537

Deep Learning 4｜用 Python 進行強化學習的開發實作

商品描述

內容介紹:

深度強化式學習 (Deep Reinforcement Learning, DRL)，就是將深度學習與強化式學習結合的技術。要讓 AI 應用落地，DRL 是必不可缺的技術。近期由兩位劍橋大學博士所帶領的 Wayve 團隊就利用了 DRL 技術，開發出可以自行從新環境中學習的自動駕駛技術，取代以往完全仰賴感測器的做法。除此之外，工廠內的自動化機器人, 或是打敗世界棋王的 AlphaGo 等，背後運作的演算法也都與 DRL 息息相關。

然而 DRL 的演算法五花八門，讓人看了眼花繚亂。事實上，它們都是為了應付各式各樣的任務而發展出來的改良版本，其核心概念的差異不大，都是立足於 DRL 最基本的 DQN (Deep Q-Network) 之上。因此本書會花費較多的篇幅，一步步帶您把 DQN 的架構完全摸透，並時時提點各個技術細節的重點，讓您可以因應不同的任務或問題，加入適當的技術或技巧來克服，再進一步實作出各種進階的演算法。

本書一共分成兩篇：基礎篇及進階篇。在基礎篇中，讀者將學習如何從無到有，建構出自己的第一個RL演算法，並用該演算法來解決多臂拉霸機問題。接著，讀者會認識RL中較為經典的演算法，如DQN、策略梯度法、A2C等。同時，各章節皆搭配數個專案，確保讀者可以在學習理論的過程中，培養實作出演算法的能力，不再只是紙上談兵。

在進階篇中，作者將會介紹較為新穎，也較為複雜的RL演算法。基本上，這些演算法都是以DQN為出發點，再加上特殊的技巧，便能處理現實中的難題。舉個例子，利用平均場DQN，學者們成功模擬出了電子的自旋狀況，進而解決了RL中的多代理人問題。同時，讀者們還將學到如何將attention機制與DQN做結合，進而實作出關聯性DQN（relational DQN），提高演算法的可解釋性。

本書提供了完整的學習架構，循序漸進地介紹各種演算法，包括：
● Deep Q-Network (DQN)
● 策略梯度法（Policy gradient methods）
● 優勢值演員-評論家（Advantage Actor-Critic, A2C）
● 分散式優勢值演員-評論家（Distributional Advantage Actor-Critic, DA2C）
● 進化演算法（Evolutionary algorithm）
● 分散式DQN（Distributional DQN）
● 鄰近Q-Learning（Neighborhood Q-Learning）
● 平均場Q-Learning（Mean field Q-Learning）
● 關聯性DQN（Relational DQN）

除了 RL 相關演算法之外，書中也介紹了近期應用 RL 而發展出來的熱門模型，相信可以提升讀者的硬實力，其中包括：
● 圖神經網路（Graph Neural Network, GNN）
● Transformer模型
● Attention模型（Attention model）

總的來說，本書是最全面、最白話的強化式學習演算法實戰解析。只要您有基本的深度學習知識，並且想要認識強化式學習領域，那麼您就是本書在尋找的合適讀者！
本書特色:
●囊括各種強化式學習的基礎及進階演算法，學習架構完整
●適當地補充數學及統計基礎，必要知識直接回顧，不用東翻西找其他資源
●重點整理深度強化式學習的基本架構，打好基礎、再先進的改良模型也看得懂
●以日常案例來實踐 DRL，理解起來事半功倍
●利用Python+PyTorch實作各章專案，不會只是紙上談兵
●所有程式皆已整理成Colab筆記本，一鍵即可檢驗結果
●本書由施威銘研究室監修，內容易讀易懂，並加入大量「編註」與「小編補充」以幫助理解及補充必要知識。

作者簡介

作者簡介:

Alex Zai 曾任 Codesmith 的首席技術長（Codesmith 為沉浸式 coding bootcamp，Alex 至今仍在其中擔任技術顧問）、Uber 的程式設計師、以及 Banjo 和 Amazon 的機器學習工程師。他同時也是開源深度學習架構Apache MXNet 的貢獻者之一。Alex Zai 還是一名創立了兩間公司的企業家，其中一間為 Y-combinator 的子公司。

Brandon Brown 自幼學習程式設計、並在大學時期兼職當軟體工程師，但最後他選擇進入了醫學行業。目前，他仍在醫療科技領域從事軟體工程工作。Brandon 目前是一名醫生，並從事與計算精神醫學（computational psychiatry，該領域即是受 DRL 啟發）有關的研究。

目錄大綱

第一篇：基礎篇
第1章：強化式學習的基本觀念
1.1 深度強化式學習中的『深度』
12 強化式學習
1.3 動態規劃 vs. 蒙地卡羅法
1.4 強化式學習架構
1.5 強化式學習有什麼應用？
1.6 為什麼要使用『深度』強化式學習？
1.7 有用的說明工具 – 線圖（string diagram）
1.8 未來各章的內容安排

第2章：模型化強化式學習問題：馬可夫決策過程
2.1 多臂拉霸機問題
2.2 利用拉霸機問題的演算法來優化廣告推送策略
2.3 使用PyTorch建構神經網路
2.4 解決廣告推送問題
2.5 馬可夫性質與MDP（馬可夫決策過程）
2.6 策略與價值函數

第3章：Deep Q-Network
3.1 狀態價值函數及動作價值函數
3.2 利用Q-Learning進行探索
3.3 避免災難性失憶的發生：經驗回放
3.4 使用目標網路來提升學習穩定性
3.5 回顧

第4章：利用『策略梯度法』選擇最佳策略
4.1 利用神經網路實現策略函數的功能
4.2 策略梯度演算法：強化高價值動作
4.3 使用OpenAI Gym
4.4 REINFORCE演算法

第5章：演員-評論家模型與分散式訓練
5.1 結合『價值函數』與『策略函數』
5.2 分散式訓練
5.3 分散式優勢演員-評論家模型
5.4 N步演員-評論家

第二篇：進階篇
第6章：進化演算法
6.1 梯度下降演算法的缺點
6.2 利用進化策略實現強化式學習
6.3 用基因演算法來玩Cartpole
6.4 進化演算法的好處與壞處
6.5 進化演算法是可『調整規模』的

第7章：分散式DQN
7.1 期望值Q-Learning的不足
7.2 機率與統計學
7.3 Bellman方程式
7.4 分散式Q-Learning
7.5 比較機率分佈
7.6 利用Dist-DQN處理模擬資料
7.7 進行Freeway遊戲

第8章：培養代理人的好奇心
8.1 預測編碼器模型
8.2 反向動態預測
8.3 設定瑪利歐遊戲
8.4 處理原始的遊戲狀態資料
8.5 建立Q網路與策略函數
8.6 內在好奇心模組(ICM)
8.7 另一種內在回饋值機制

第9章：多代理人的環境
9.1 多個代理人之間的互動
9.2 鄰近Q-Learning
9.3 1D Ising模型
9.4 平均場Q-Learning
9.5 包含『競爭』與『合作』關係的遊戲

第10章：具解釋性的模型：attention與關聯性模型
10.1 圖神經網路
10.2 以attention為基礎的關聯性推理
10.3 利用self-attention處理MNIST資料集
10.4 多端口的attention和關聯性DQN
10.5 雙重Q-Learning
10.6 訓練與視覺化結果

第11章：回顧與學習規劃
11.1 回顧學習歷程
11.2 有待探索的深度強化式學習問題
11.3 結語

第A章：數學、深度學習及PyTorch之額外知識補充
A.1 線性代數
A.2 微積分
A.3 深度學習
A.4 PyTorch