Python 深度強化學習 : 基於 Chainer 和 OpenAI Gym

[日]牧野浩二(Koji Makino)，[日]西崎博光(Hiromitsu Nishizaki) 申富饒//於僡

出版商: 機械工業
出版日期: 2021-10-01
定價: $474
售價: 8.5 折 $403
語言: 簡體中文
頁數: 228
裝訂: 平裝
ISBN: 7111692586
ISBN-13: 9787111692584
相關分類: Reinforcement、Python

立即出貨 (庫存 < 4)

買這商品的人也買了...

~~$474~~ $450

程序員的數學2 : 概率統計
~~$500~~ $390

Python 深度學習實作：Keras 快速上手
$352

Python 強化學習實戰 : 應用 OpenAI Gym 和 TensorFlow 精通強化學習和深度強化學習
$280

深度學習基礎教程
~~$520~~ $442

用 Python 實作強化學習｜使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)
~~$500~~ $425

實戰人工智慧之深度強化學習｜使用 PyTorch x Python
~~$690~~ $538

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)
$327

邊做邊學深度強化學習：PyTorch 程序設計實踐
$230

TensorFlow 強化學習快速入門指南使用 Python 動手搭建自學習的智能體 (Tensorflow Reinforcement Learning Quick Start Guide)
~~$520~~ $411

Kubernetes 最佳實務 : 成功部署應用程式的藍圖 (Kubernetes Best Practices: Blueprints for Building Successful Applications on Kubernetes)
$374

強化學習入門：從原理到實踐
~~$780~~ $616

Python for DevOps｜學習精準有效的自動化 (Python for Devops: Learn Ruthlessly Effective Automation)
~~$780~~ $616

原來世界是這樣運轉的：微服務架構原理與實戰
~~$680~~ $537

機器學習設計模式 (Machine Learning Design Patterns: Solutions to Common Challenges in Data Preparation, Model Building, and Mlops)
$305

深度強化學習
~~$690~~ $545

AWS 自學聖經：5大必學雲端主題・超圖解入門 (全彩印刷)
$764

演化學習理論與算法進展精裝版
~~$779~~ $740

程序員數學 : 用 Python 學透線性代數和微積分 (Math for Programmers: 3D graphics, machine learning, and simulations with Python)
$663

JavaScript 面向對象編程指南, 3/e
~~$2,080~~ $1,976

Natural Language Processing with Transformers: Building Language Applications with Hugging Face (Paperback)
~~$600~~ $468

PyTorch 深度學習入門與應用：必備實作知識與工具一本就學會
~~$713~~ $677

Linux 高性能網絡詳解：從 DPDK、RDMA 到 XDP
~~$528~~ $502

基於 Python 的強化學習 (Reinforcement Learning Algorithms with Python : Learn, understand, and develop smart algorithms for addressing AI challenges)
~~$419~~ $398

深度強化學習實戰用 OpenAI Gym 構建智能體
~~$680~~ $537

Deep Learning 4｜用 Python 進行強化學習的開發實作

簡體館年度書展｜現貨2書79折3書75折詳見活動內容 »

VIP 95折
~~$594~~ $564

深入淺出 SSD 測試 : 固態存儲測試流程方法與工具
VIP 95折
~~$515~~ $489

MCP 開發從入門到實戰
85折
$806

Linux x64 匯編語言編程
VIP 95折
~~$479~~ $455

MCP 極簡開發 : 輕鬆打造高效智能體
VIP 95折
~~$534~~ $507

RISC-V 架構 DSP 處理器設計
VIP 95折
~~$419~~ $398

硬件系統模糊測試：技術揭秘與案例剖析
85折
$454

RAG 實踐權威指南：構建精準、高效大模型之道
79折
$564

CUDA 並行編程與性能優化
VIP 95折
~~$288~~ $274

生成式視覺模型原理與實踐
87折
$459

AI大模型：賦能通信產業
VIP 95折
~~$408~~ $388

科學預測——預見科學之美
VIP 95折
~~$299~~ $284

Processing創意編程入門：從編程原理到項目案例
VIP 95折
~~$534~~ $507

大模型驅動的具身智能架構,設計與實現
VIP 95折
~~$474~~ $450

納米級CMOS VLSI電路(可制造性設計)
VIP 95折
~~$359~~ $341

Manus應用與AI Agent設計指南：從入門到精通
87折
$360

高薪Offer 簡歷、面試、談薪完全攻略
VIP 95折
~~$534~~ $507

軟件系統優化
VIP 95折
~~$414~~ $393

芯片的較量 (日美半導體風雲)
VIP 95折
~~$294~~ $279

Manus AI 智能體從入門到精通
87折
$981

深度學習：基礎與概念
79折
$469

GitHub Copilot 編程指南
87折
$469

Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化
85折
$551

C#核心編程200例（視頻課程+全套源程序）
VIP 95折
~~$354~~ $336

Verilog HDL 計算機網絡典型電路算法設計與實現
VIP 95折
~~$708~~ $673

SAAS + AI 架構實戰：業務解析、架構設計、AI 應用

簡體館年度書展｜現貨2書79折3書75折詳見活動內容 »

85折
$806

Linux x64 匯編語言編程
VIP 95折
~~$479~~ $455

MCP 極簡開發 : 輕鬆打造高效智能體
VIP 95折
~~$419~~ $398

硬件系統模糊測試：技術揭秘與案例剖析
VIP 95折
~~$288~~ $274

生成式視覺模型原理與實踐
87折
$459

AI大模型：賦能通信產業
VIP 95折
~~$408~~ $388

科學預測——預見科學之美
VIP 95折
~~$299~~ $284

Processing創意編程入門：從編程原理到項目案例
87折
$360

高薪Offer 簡歷、面試、談薪完全攻略
VIP 95折
~~$534~~ $507

軟件系統優化
79折
$469

GitHub Copilot 編程指南
85折
$551

C#核心編程200例（視頻課程+全套源程序）
VIP 95折
~~$708~~ $673

SAAS + AI 架構實戰：業務解析、架構設計、AI 應用
VIP 95折
~~$419~~ $398

深入淺出 Docker, 2/e
85折
$658

Unity 特效制作：Shader Graph 案例精講
79折
$275

零基礎玩轉國產大模型DeepSeek
VIP 95折
~~$774~~ $735

人工智能大模型：機器學習基礎
VIP 95折
~~$419~~ $398

RAG 極簡入門：原理與實踐
VIP 95折
~~$419~~ $398

大模型實戰 : 從零實現 RAG 與 Agent 系統
VIP 95折
~~$348~~ $331

算法趣學（第2版）
VIP 95折
~~$354~~ $336

大模型理論與實踐——打造行業智能助手
85折
$509

生成式人工智能 (基於 PyTorch 實現)
VIP 95折
~~$894~~ $849

機器人抓取力學
VIP 95折
~~$474~~ $450

集成電路版圖設計從入門到精通
VIP 95折
~~$839~~ $797

Java 學習筆記, 6/e
VIP 95折
~~$479~~ $455

ZBrush遊戲角色設計（第2版）

商品描述

近年來，機器學習受到了人們的廣泛關註。
本書面向普通大眾，指導讀者在Python（基於Chainer和OpenAI Gym）中實踐深度強化學習。
讀者只需要具備一些基本的編程經驗即可讀懂書中內容，通過實現具體程序來掌握深度強化學習的相關知識。
本書內容：介紹深度學習、強化學習和深度強化學習的基本知識。
通過多種實際對戰遊戲（如太空侵略者、吃豆人）來介紹算法，如ε-greedy算法。
使用Anaconda設置本地PC，在倒立擺和老鼠學習問題中實現深度強化學習。
使用Python實現MNIST手寫數字分類任務。實現深度強化學習的基本算法DQN。
詳解繼DQN之後提出的新的深度強化學習技術（DDQN、PER-DQN、DDPG和A3C等）。

作者簡介

Hiromitsu Nishizaki

豐橋技術科學大學博士，現為山梨大學大學院綜合研究部工學領域的副教授。
主要致力於語音信息處理的研究，尤其是語音識別和語音文檔檢索的研究
（即從大規模語音數據庫中找到相應語音的研究）。

目錄大綱

譯者序
前言
第1章引言  1
1.1 深度強化學習可以做什麼  1
1.2 本書的結構  4
1.3 框架：Chainer和ChainerRL  6
1.4 Python的運行檢查  6
1.5 Chainer的安裝  9
1.6 ChainerRL的安裝  12
1.7 模擬器：OpenAI Gym  14

第2章深度學習  17
2.1 什麼是深度學習  17
2.2 神經網絡  18
2.3 基於Chainer的神經網絡  21
2.3.1 Chainer與神經網絡的對應  24
2.3.2 Chainer程序  25
2.3.3 參數設置  26
2.3.4 創建數據  27
2.3.5 定義神經網絡  27
2.3.6 各種聲明  28
2.3.7 顯示訓練狀態  28
2.3.8 保存訓練狀態  31
2.3.9 執行訓練  32
2.4 與其他神經網絡的對應  32
2.4.1 感知器  32
2.4.2 5層神經網絡（深度學習）  33
2.4.3 計算輸入中的1的數量  34
2.5 基於深度神經網絡的手寫數字識別  35
2.5.1 手寫數字的輸入格式  36
2.5.2 深度神經網絡的結構  39
2.5.3 8×8的手寫數字數據  41
2.6 基於捲積神經網絡的手寫數字識別  43
2.6.1 捲積  45
2.6.2 激活函數  49
2.6.3 池化  49
2.6.4 執行  50
2.7 一些技巧  53
2.7.1 讀取文件數據  54
2.7.2 使用訓練模型  55
2.7.3 重啟訓練  56
2.7.4 檢查權重  56
2.7.5 從文件中讀取手寫數字  57

第3章強化學習  59
3.1 什麼是強化學習  59
3.1.1 有監督學習  60
3.1.2 無監督學習  60
3.1.3 半監督學習  60
3.2 強化學習原理  61
3.3 通過簡單的示例來學習  61
3.4 應用到Q學習問題中  63
3.4.1 狀態  63
3.4.2 行動  63
3.4.3 獎勵  63
3.4.4 Q值  64
3.5 使用Python進行訓練  67
3.5.1 運行程序  67
3.5.2 說明程序  69
3.6 基於OpenAI Gym的倒立擺  73
3.6.1 運行程序  73
3.6.2 說明程序  74
3.7 如何保存和加載Q值  79

第4章深度強化學習  81
4.1 什麼是深度強化學習  81
4.2 對於老鼠學習問題的應用  83
4.2.1 運行程序  83
4.2.2 說明程序  85
4.2.3 如何保存和讀取智能體模型  91
4.3 基於OpenAI Gym的倒立擺  91
4.3.1 運行程序  91
4.3.2 說明程序  92
4.4 基於OpenAI Gym的太空侵略者  97
4.5 基於OpenAI Gym的顛球  99
4.5.1 運行程序  101
4.5.2 說明程序  102
4.6 對戰遊戲  109
4.6.1 黑白棋  109
4.6.2 訓練方法  111
4.6.3 變更盤面  121
4.6.4 黑白棋實體  121
4.6.5 如何與人類對戰  123
4.6.6 捲積神經網絡的應用  127
4.7 使用物理引擎進行模擬  128
4.7.1 物理引擎  129
4.7.2 運行程序  130
4.7.3 說明程序  131
4.8 物理引擎在顛球問題中的應用  132
4.9 物理引擎在倒立擺問題中的應用  140
4.10 物理引擎在機械臂問題中的應用  144
4.11 使用其他深度強化學習方法  151
4.11.1 深度強化學習的類型  151
4.11.2 將訓練方法更改為DDQN  153
4.11.3 將訓練方法更改為PER-DQN  153
4.11.4 將訓練方法更改為DDPG  153
4.11.5 將訓練方法更改為A3C  155

第5章實際環境中的應用  157
5.1 使用攝像機觀察環境（MNIST）  157
5.1.1 攝像機設置  158
5.1.2 通過捲積神經網絡對攝像機圖像進行分類  160
5.1.3 使用圖像大小為28×28的手寫數字進行訓練  163
5.2 實際環境中的老鼠學習問題  164
5.3 使用Raspberry Pi處理老鼠學習問題  168
5.3.1 環境構建  169
5.3.2 以輸入輸出為重點的簡化  169
5.3.3 使用攝像機測量環境  176
5.4 使用Arduino PC處理老鼠學習問題  181
5.4.1 環境構建  182
5.4.2 以輸入輸出為重點的簡化  185
5.4.3 使用攝像機測量環境  193
5.5 使用Raspberry Pi Arduino處理老鼠學習問題  197
5.6 結語  201
附錄  202