強化學習實戰 — 從零開始製作 AlphaGo 圍棋 (微課視頻版)

劉佳

  • 出版商: 清華大學
  • 出版日期: 2023-04-01
  • 售價: $419
  • 貴賓價: 9.5$398
  • 語言: 簡體中文
  • ISBN: 7302629692
  • ISBN-13: 9787302629696
  • 相關分類: Reinforcement
  • 立即出貨

  • 強化學習實戰 — 從零開始製作 AlphaGo 圍棋 (微課視頻版)-preview-1
  • 強化學習實戰 — 從零開始製作 AlphaGo 圍棋 (微課視頻版)-preview-2
  • 強化學習實戰 — 從零開始製作 AlphaGo 圍棋 (微課視頻版)-preview-3
強化學習實戰 — 從零開始製作 AlphaGo 圍棋 (微課視頻版)-preview-1

買這商品的人也買了...

商品描述

本書通過基礎理論和算法實踐相結合,循序漸進地介紹了人工智能領域中的常見算法,並以圍棋游戲作為媒介,全面、系統地介紹了人工智能算法的實現方法,並通過Keras和PyTorch框架實踐人工智能算法中的深度強化學習內容。全書共10章,分別介紹圍棋的基礎知識、如何製作圍棋軟件、傳統棋類智能算法、神經網絡入門知識、如何實現圍棋智能體程序、通用化圍棋智能體程序、策略梯度算法、基於價值的深度學習網絡(DQN)算法、ActorCritic算法、如何實踐AlphaGo和AlphaZero等知識,書中的每個知識點都有相應的實現代碼和實例。 本書主要面向廣大從事數據分析、機器學習、數據挖掘或深度學習的專業人員,從事高等教育的專任教師,高等學校的在讀學生及相關領域的廣大科研人員。

目錄大綱

 

 

 

 

 

目錄

第一部分電腦圍棋的基礎知識和傳統的智能算法

 

第1章圍棋: 黑白的世界

 

1.1什麽是圍棋

 

1.2圍棋的規則

 

1.3勝負的判定

 

1.4圍棋棋手的棋力

 

1.5電腦眼中的圍棋

 

1.5.1SGF文件

 

1.5.2GTP

 

第2章實現一個圍棋軟件

 

2.1軟件版本

 

2.2圍棋軟件的組成

 

2.3佐布裡斯特散列

 

2.4圍棋智能體

 

2.5圍棋的棋盤

 

2.6引入裁判

 

2.7讓智能體下棋

 

第3章傳統的棋類智能

 

3.1極小化極大算法

 

3.2AlphaBeta剪枝算法

 

3.3棋類局面評估

 

3.4蒙特卡羅模擬

 

3.4.1蒙特卡羅算法

 

3.4.2蒙特卡羅樹搜索

 

3.4.3蒙特卡羅算法改進

 

3.4.4需要註意的問題

 

3.5監督學習

 

3.6傳統方法的討論

 

第二部分基於神經網絡的機器學習

 

第4章機器學習入門

 

4.1人工神經網絡

 

4.1.1神經元

 

4.1.2常見的激活函數

 

4.1.3多層感知器

 

4.1.4捲積神經網絡

 

4.1.5反向傳播算法

 

4.1.6小批量訓練法

 

4.1.7殘差網絡

 

4.1.8多層感知器的應用示例

 

4.1.9捲積網絡對圖片進行多分類的應用示例

 

4.2優化神經網絡

 

4.2.1訓練集、驗證集、測試集以及交叉驗證

 

4.2.2欠擬合與過擬合

 

4.2.3損失函數的正則化

 

4.2.4精確率和召回率的權衡

 

4.3其他人工智能方法簡介

 

4.3.1K近鄰算法

 

4.3.2樸素貝葉斯法

 

4.3.3決策樹

 

4.3.4Boosting算法/Bagging算法

 

4.3.5支持向量機

 

4.3.6隨機場算法

 

4.3.7傳統智能算法所面臨的挑戰

 

 

 

 

 

 

 

第5章第一個圍棋智能體

 

5.1電子圍棋棋譜

 

5.2HDF5文件結構

 

5.3數據模型

 

5.4獲取訓練樣本

 

5.5代碼演示

 

第6章通用化圍棋智能體程序

 

6.1在網絡上發布圍棋智能體

 

6.2本地對戰

 

6.2.1電腦的圍棋語言

 

6.2.2圍棋的對弈圖形界面

 

6.2.3圍棋引擎

 

6.3讓圍棋智能體自己去網上下棋

 

第三部分強化學習

 

第7章策略梯度

 

第8章深度價值網絡

 

8.1傳統的QLearning算法

 

8.1.1原始版QLearning

 

8.1.2原始版QLearning計算時的優化

 

8.1.3QLearning的變種Sarsa

 

8.1.4Sarsa的進化Sarsaλ

 

8.2在神經網絡上應用DQN

 

第9章ActorCritic算法

 

第10章AlphaGo和AlphaZero

 

10.1AlphaGo的結構和訓練流程

 

10.2AlphaZero的結構與訓練流程

 

10.3可行的優化

 

附錄AKeras入門

 

附錄BPyTorch入門

 

附錄C反向傳播算法

 

C.1命名約定

 

C.2正文

 

C.3進一步討論

 

C.4拓展

 

附錄D不同地區的圍棋規則

 

D.1中國規則

 

D.2日本規則

 

D.3應氏規則

 

D.4新西蘭規則

 

D.5美國規則

 

D.6智運會規則

 

D.7TrompTaylor規則