深度學習深度学习(Deep learning)

Name: 深度學習
Price: 856 TWD
Availability: InStock
Author: [美]Ian Goodfellow（伊恩·古德費洛）、[加]Yoshua Bengio（約書亞·本吉奧）、[加]Aaron Courville（亞倫·庫維爾）
ISBN: 7115461473

[美]Ian Goodfellow（伊恩·古德費洛）、[加]Yoshua Bengio（約書亞·本吉奧）、[加]Aaron Courville（亞倫·庫維爾）趙申劍黎彧君符天凡李凱

預覽內頁

出版商: 人民郵電
出版日期: 2017-08-01
定價: $1,008
售價: 8.5 折 $856
語言: 簡體中文
頁數: 500
裝訂: 平裝
ISBN: 7115461473
ISBN-13: 9787115461476
相關分類: DeepLearning
此書翻譯自: Deep Learning (Hardcover)
相關翻譯: 深度學習 (Deep Learning)(繁體中文版) (繁中版)
其他版本: 深度學習 (精裝版)

銷售排行:

🥉 2019 年度簡體中文書銷售排行第 3 名
🥉 2019/6 簡體中文書銷售排行第 3 名
🥈 2019/2 簡體中文書銷售排行第 2 名
🥉 2019/1 簡體中文書銷售排行第 3 名
🥈 2018 年度簡體中文書銷售排行第 2 名
🥈 2018/12 簡體中文書銷售排行第 2 名

立即出貨

買這商品的人也買了...

~~$620~~ $527

大話設計模式
~~$940~~ $700

無瑕的程式碼－敏捷軟體開發技巧守則 + 番外篇－專業程式設計師的生存之道 (雙書合購)
~~$780~~ $616

精通 Python｜運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)
~~$1,650~~ $1,617

Deep Learning (Hardcover)
~~$360~~ $180

深度學習快速入門 — 使用 TensorFlow (Getting started with TensorFlow)
~~$450~~ $382

Effective SQL 中文版 | 寫出良好 SQL 的 61個具體做法 (Effective SQL : 61 Specific Ways to Write Better SQL)
~~$590~~ $460

TensorFlow + Keras 深度學習人工智慧實務應用
~~$390~~ $195

寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
$652

深度學習、優化與識別 (Deep Learning,Optimization and Recognition)
~~$580~~ $458

Deep Learning｜用 Python 進行深度學習的基礎理論實作
$402

機器學習之路 : Caffe、Keras、scikit-learn 實戰
~~$480~~ $379

初探機器學習｜使用 Python (Thoughtful Machine Learning with Python)
~~$450~~ $270

演算法圖鑑：26種演算法 + 7種資料結構，人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解
~~$500~~ $390

為你自己學 Git
~~$699~~ $594

Python 入門邁向高手之路王者歸來
~~$620~~ $483

Python 深度學習 (Python Deep Learning)
$402

深入淺出強化學習 : 原理入門
~~$580~~ $452

無瑕的程式碼－整潔的軟體設計與架構篇 (Clean Architecture: A Craftsman's Guide to Software Structure and Design)
~~$299~~ $284

人工智能基礎 (高中版)(*封面書況瑕疵,不介意再下單)
~~$620~~ $490

Deep Learning 深度學習基礎｜設計下一代人工智慧演算法 (Fundamentals of Deep Learning: Designing Next-Generation Machine Intelligence Algorithms)
$714

Python 深度學習 (Deep Learning with Python)
$714

機器學習實戰：基於 Scikit-Learn 和 TensorFlow (Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques for Building Intelligent Systems)
~~$1,280~~ $960

CODE COMPLETE：軟體開發實務指南, 2/e (中文版) (Code Complete: A Practical Handbook of Software Construction, 2/e)
~~$550~~ $495

深度學習入門教室：6堂基礎課程 + Python 實作練習，Deep Learning、人工智慧、機器學習的理論和應用全圖解
~~$1,000~~ $790

Deep learning 深度學習必讀 - Keras 大神帶你用 Python 實作 (Deep Learning with Python)

商品描述

《深度學習》由全球知名的三位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫，是深度學習領域奠基性的經典教材。

全書的內容包括3個部分：

第1部分介紹基本的數學工具和機器學習的概念，它們是深度學習的預備知識；

第2部分系統深入地講解現今已成熟的深度學習方法和技術；

第3部分討論某些具有前瞻性的方向和想法，它們被公認為是深度學習未來的研究重點。

《深度學習》適合各類讀者閱讀，包括相關專業的大學生或研究生，以及不具有機器學習或統計背景、但是想要快速補充深度學習知識，以便在實際產品或平臺中應用的軟件工程師。

深度學習是機器學習的一個分支，它能夠使計算機通過層次概念來學習經驗和理解世界。因為計算機能夠從經驗中獲取知識，所以不需要人類來形式化地定義計算機需要的所有知識。層次概念允許計算機通過構造簡單的概念來學習複雜的概念，而這些分層的圖結構將具有很深的層次。本書會介紹深度學習領域的許多主題。

本書囊括了數學及相關概念的背景知識，包括線性代數、概率論、信息論、數值優化以及機器學習中的相關內容。同時，它還介紹了工業界中實踐者用到的深度學習技術，包括深度前饋網絡、正則化、優化算法、捲積網絡、序列建模和實踐方法等，並且調研了諸如自然語言處理、語音識別、計算機視覺、在線推薦系統、生物信息學以及視頻遊戲方面的應用。最後，本書還提供了一些研究方向，涵蓋的理論主題包括線性因子模型、自編碼器、表示學習、結構化概率模型、蒙特卡羅方法、配分函數、近似推斷以及深度生成模型。

封面特色：由藝術家Daniel Ambrosi提供的中央公園杜鵑花步道夢幻景觀。在Ambrosi的億級像素全景圖上，應用Joseph Smarr（Google）和Chirs Lamb（NVIDIA）修改後的Google DeepDream開源程序，創造了Daniel Ambrosi的“幻景”。

作者簡介

Ian Goodfellow，谷歌公司(Google)的研究科學家，2014年蒙特利爾大學機器學習博士。他的研究興趣涵蓋大多數深度學習主題，特別是生成模型以及機器學習的安全和隱私。Ian Goodfellow在研究對抗樣本方面是一位有影響力的早期研究者，他發明瞭生成式對抗網絡，在深度學習領域貢獻卓越。

Yoshua Bengio，蒙特利爾大學計算機科學與運籌學系(DIRO)的教授，蒙特利爾學習算法研究所(MILA)的負責人，CIFAR項目的共同負責人，加拿大統計學習算法研究主席。Yoshua Bengio的主要研究目標是瞭解產生智力的學習原則。他還教授“機器學習”研究生課程(IFT6266)，並培養了一大批研究生和博士後。

Aaron Courville，蒙特利爾大學計算機科學與運籌學系的助理教授，也是LISA實驗室的成員。目前他的研究興趣集中在發展深度學習模型和方法，特別是開發概率模型和新穎的推斷方法。Aaron Courville主要專註於計算機視覺應用，在其他領域，如自然語言處理、音頻信號處理、語音理解和其他AI相關任務方面也有所研究。

中文版審校者簡介

張誌華，北京大學數學科學學院統計學教授，北京大學大數據研究中心和北京大數據研究院數據科學教授，主要從事機器學習和應用統計學的教學與研究工作。

譯者簡介

趙申劍，上海交通大學計算機系碩士研究生，研究方向為數值優化和自然語言處理。

黎彧君，上海交通大學計算機系博士研究生，研究方向為數值優化和強化學習。

符天凡，上海交通大學計算機系碩士研究生，研究方向為貝葉斯推斷。

李凱，上海交通大學計算機系博士研究生，研究方向為博弈論和強化學習。

目錄大綱

第1章引言. . . . . . . . . 1

1.1本書面向的讀者. . . . . . . . . . . . . . . . . . . .7

1.2深度學習的歷史趨勢. . . . . . . . . . . . . . . 8

1.2.1神經網絡的眾多名稱和命運變遷. 8

1.2.2與日俱增的數據量. . . . . . . . . . . . . 12

1.2. 3與日俱增的模型規模. . . . . . . . . . .13

1.2.4與日俱增的精度、複雜度和對現實世界的衝擊. . . . . . . . . . . . . 15

第1部分應用數學與機器學習基礎

第2章線性代數. . . 19

2.1標量、向量、矩陣和張量. . . . . . . . . . 19

2.2矩陣和向量相乘. . . . . . . . . . . . . . . . . . .21

2.3單位矩陣和逆矩陣. . . . . . . . . . . . . . . . 22

2.4線性相關和生成子空間. . . . . . . . . . . 23

2.5範數. . . . . . . . .24

2.6特殊類型的矩陣和向量. . . . . . . . . . . 25

2.7特徵分解. . . . 26

2.8奇異值分解. . . . . . . . . . . . . . . . . . . . . . . 28

2.9 Moore-Penrose偽逆. . . . . . . . . . . . . . . 28

2.10 運算. . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.11行列式. . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.12實例：主成分分析. . . . . . . . . . . . . . . .30

第3章概率與信息論. . . . . . . . . . . . . . . . . . . . .34

3.1為什麼要使用概率. . . . . . . . . . . . . . . . 34

3.2隨機變量. . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.3概率分佈. . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.3.1離散型變量和概率質量函數. . . . 36

3.3.2連續型變量和概率密度函數. . . . 36

3.4邊緣概率. . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.5條件概率. . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.6條件概率的鍊式法則. . . . . . . . . . . . . . 38

3.7獨立性和條件獨立性. . . . . . . . . . . . . . 38

3.8期望、方差和協方差. . . . . . . . . . . . . . 38

3.9常用概率分佈. . . . . . . . . . . . . . . . . . . . . 39

3.9.1 Bernoulli分佈. . . . . . . . . . . . . . . . 40

3.9.2 Multinoulli分佈. . . . . . . . . . . . . . 40

3.9.3高斯分佈. . . . . . . . . . . . . . . . . . . . . 40

3.9.4指數分佈和Laplace分佈. . . . . . 41

3.9.5 Dirac分佈和經驗分佈. . . . . . . . . 42

3.9.6分佈的混合. . . . . . . . . . . . . . . . . . . 42

3.10常用函數的有用性質. . . . . . . . . . . . .43

3.11貝葉斯規則. . . . . . . . . . . . . . . . . . . . . . 45

3.12連續型變量的技術細節. . . . . . . . . . 45

3.13信息論. . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.14結構化概率模型. . . . . . . . . . . . . . . . . 49

第4章數值計算. . . . . . . . . . . . . . . . . . . . . . . . . 52

4.1上溢和下溢. . . . . . . . . . . . . . . . . . . . . . . 52

4.2病態條件. . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.3基於梯度的優化方法. . . . . . . . . . . . . . 53

4.3.1梯度之上：Jacobian和Hessian矩陣. . . . . . . . . . . . . . . . . . . . . 56

4 .4約束優化. . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.5實例：線性最小二乘. . . . . . . . . . . . . . 61

第5章機器學習基礎. . . . . . . . . . . . . . . . . . . . .63

5.1學習算法. . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.1.1任務T . . . . . . . . . . . . . . . . . . . . . . 63

5.1.2性能度量P . . . . . . . . . . . . . . . . . . . 66

5.1.3經驗E . . . . . . . . . . . . . . . . . . . . . . . 66

5.1.4示例：線性回歸. . . . . . . . . . . . . . . 68

5.2容量、過擬合和欠擬合. . . . . . . . . . . . 70

5.2.1沒有免費午餐定理. . . . . . . . . . . . . 73

5.2.2正則化. . . . . . . . . . . . . . . . . . . . . . . 74

5.3超參數和驗證集. . . . . . . . . . . . . . . . . . .76

5.3.1交叉驗證. . . . . . . . . . . . . . . . . . . . . 76

5.4估計、偏差和方差. . . . . . . . . . . . . . . . .77

5.4.1點估計. . . . . . . . . . . . . . . . . . . . . . . 77

5.4.2偏差. . . . . . . . . . . . . . . . . . . . . . . . . 78

5.4.3方差和標準差. . . . . . . . . . . . . . . . . 80

5.4.4權衡偏差和方差以最小化均方誤差. . . . . . . . . . . . . . . . . . . . . . . 81

5.4.5一致性. . . . . . . . . . . . . . . . . . . . . . . 82

5.5最大似然估計. . . . . . . . . . . . . . . . . . . . . 82

5.5.1條件對數似然和均方誤差. . . . . . .84

5.5. 2最大似然的性質. . . . . . . . . . . . . . . 84

5.6貝葉斯統計. . . . . . . . . . . . . . . . . . . . . . . 85

5.6.1最大後驗(MAP)估計. . . . . . . . . 87

5.7監督學習算法. . . . . . . . . . . . . . . . . . . . . 88

5.7.1概率監督學習. . . . . . . . . . . . . . . . . 88

5.7.2支持向量機. . . . . . . . . . . . . . . . . . . 88

5.7.3其他簡單的監督學習算法. . . . . . .90

5.8無監督學習算法. . . . . . . . . . . . . . . . . . .91

5.8.1主成分分析. . . . . . . . . . . . . . . . . . . 92

5.8.2 k-均值聚類. . . . . . . . . . . . . . . . . . . .94

5.9隨機梯度降. . . . . . . . . . . . . . . . . . . . . 94

5.10構建機器學習算法. . . . . . . . . . . . . . . 96

5.11促使深度學習發展的挑戰. . . . . . . . 96

5.11.1維數災難. . . . . . . . . . . . . . . . . . . . 97

5.11.2局部不變性和平滑正則化. . . . . 97

5.11.3流形學習. . . . . . . . . . . . . . . . . . . . 99

第2部分深度網絡：現代實踐

第6章深度前饋網絡. . . . . . . . . . . . . . . . . . . 105

6.1實例：學習XOR. . . . . . . . . . . . . . . . . 107

6.2基於梯度的學習. . . . . . . . . . . . . . . . . 110

6.2.1代價函數. . . . . . . . . . . . . . . . . . . . 111

6.2.2輸出單元. . . . . . . . . . . . . . . . . . . . 113

6.3隱藏單元. . . . . . . . . . . . . . . . . . . . . . . . .119

6.3.1整流線性單元及其擴展. . . . . . . 120

6.3.2 logistic sigmoid與雙曲正切函數. . . . . . . . . . . . . . . . . . . . . . . . 121

6.3.3其他隱藏單元. . . . . . . . . . . . . . . . 122

6.4架構設計. . . . . . . . . . . . . . . . . . . . . . . . .123

6.4.1萬能近似性質和深度. . . . . . . . . .123

6.4.2其他架構上的考慮. . . . . . . . . . . .126

6.5反向傳播和其他的微分算法. . . . . .126

6.5.1計算圖. . . . . . . . . . . . . . . . . . . . . . 127

6.5.2微積分中的鍊式法則. . . . . . . . . .128

6.5.3遞歸地使用鍊式法則來實現反向傳播. . . . . . . . . . . . . . . . . . . . 128

6.5.4全連接MLP中的反向傳播計算. . . . . . . . . . . . . . . . . . . . . . . . 131

6.5 .5符號到符號的導數. . . . . . . . . . . .131

6.5.6一般化的反向傳播. . . . . . . . . . . .133

6.5.7實例：用於MLP訓練的反向傳播. . . . . . . . . . . . . . . . . . . . . . .135

6.5.8複雜化. . . . . . . . . . . . . . . . . . . . . . 137

6.5.9深度學習界以外的微分. . . . . . . 137

6.5.10高階微分. . . . . . . . . . . . . . . . . . . 138

6.6歷史小記. . . . . . . . . . . . . . . . . . . . . . . . .139

第7章深度學中的正則化. . . . . . . . . . . . 141

7.1參數範數懲罰. . . . . . . . . . . . . . . . . . . . 142

7.1.1 L2參數正則化. . . . . . . . . . . . . . . 142

7.1.2 L1正則化. . . . . . . . . . . . . . . . . . . 144

7.2作為約束的範數懲罰. . . . . . . . . . . . .146

7.3正則化和欠約束問題. . . . . . . . . . . . .147

7.4數據集增強. . . . . . . . . . . . . . . . . . . . . . 148

7.5噪聲魯棒性. . . . . . . . . . . . . . . . . . . . . . 149

7.5.1向輸出目標註入噪聲. . . . . . . . . .150

7.6半監督學習. . . . . . . . . . . . . . . . . . . . . . 150

7.7多任務學習. . . . . . . . . . . . . . . . . . . . . . 150

7.8提前終止. . . . . . . . . . . . . . . . . . . . . . . . .151

7.9參數綁定和參數共享. . . . . . . . . . . . .156

7.9.1捲積神經網絡. . . . . . . . . . . . . . . . 156

7.10稀疏表示. . . . . . . . . . . . . . . . . . . . . . . .157

7.11 Bagging和其他集成方法. . . . . . . .158

7.12 Dropout . . . . . . . . . . . . . . . . . . . . . . . . .159

7.13對抗訓練. . . . . . . . . . . . . . . . . . . . . . . . 165

7.14切麵距離、正切傳播和流形正切分類器. . . . . . . . . . . . . . . . . . 167

第8章深度模型中的優化. . . . . . . . . . . . . . .169

8.1學習和純優化有什麼不同. . . . . . . . 169

8.1.1經驗風險最小化. . . . . . . . . . . . . . 169

8.1.2代理損失函數和提前終止. . . . . 170

8.1.3批量算法和小批量算法. . . . . . . 170

8.2神經網絡優化中的挑戰. . . . . . . . . . 173

8.2.1病態. . . . . . . . . . . . . . . . . . . . . . . . 173

8.2.2局部極小值. . . . . . . . . . . . . . . . . . 174

8.2.3高原、鞍點和其他平坦區域. . . .175

8.2.4懸崖和梯度爆炸. . . . . . . . . . . . . . 177

8.2.5長期依賴. . . . . . . . . . . . . . . . . . . . 177

8.2.6非精確梯度. . . . . . . . . . . . . . . . . . 178

8.2.7局部和全局結構間的弱對應. . . 178

8.2.8優化的理論限制. . . . . . . . . . . . . . 179

8.3基本算法. . . . . . . . . . . . . . . . . . . . . . . . .180

8.3.1隨機梯度下降. . . . . . . . . . . . . . . . 180

8.3.2動量. . . . . . . . . . . . . . . . . . . . . . . . 181

8.3.3 Nesterov動量. . . . . . . . . . . . . . . .183

8.4參數初始化策略. . . . . . . . . . . . . . . . . 184

8.5自適應學習率算法. . . . . . . . . . . . . . . 187

8.5.1 AdaGrad . . . . . . . . . . . . . . . . . . . 187

8.5.2 RMSProp . . . . . . . . . . . . . . . . . . . 188

8.5.3 Adam . . . . . . . . . . . . . . . . . . . . . . . 189

8.5.4選擇正確的優化算法. . . . . . . . . .190

8.6二階近似方法. . . . . . . . . . . . . . . . . . . . 190

8.6.1牛頓法. . . . . . . . . . . . . . . . . . . . . . 190

8.6.2共軛梯度. . . . . . . . . . . . . . . . . . . . 191

8.6.3 BFGS. . . . . . . . . . . . . . . . . . . . . . . 193

8.7優化策略和元算法. . . . . . . . . . . . . . . 194

8.7.1批標準化. . . . . . . . . . . . . . . . . . . . 194

8.7.2坐標下降. . . . . . . . . . . . . . . . . . . . 196

8.7.3 Polyak平均. . . . . . . . . . . . . . . . . 197

8.7.4監督預訓練. . . . . . . . . . . . . . . . . . 197

8.7.5設計有助於優化的模型. . . . . . . 199

8.7.6延拓法和課程學習. . . . . . . . . . . .199

第9章捲積網絡. . . . . . . . . . . . . . . . . . . . . . . . 201

9.1捲積運算. . . . . . . . . . . . . . . . . . . . . . . . .201

9.2動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

9.3池化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

9.4捲積與池化作為一種無限強的先驗. . . . . . . . . . . . . . . . . . . . . . . 210

9.5基本捲積函數的變體. . . . . . . . . . . . .211

9.6結構化輸出. . . . . . . . . . . . . . . . . . . . . . 218

9.7數據類型. . . . . . . . . . . . . . . . . . . . . . . . .219

9.8高效的捲積算法. . . . . . . . . . . . . . . . . 220

9.9隨機或無監督的特徵. . . . . . . . . . . . .220

9 .10捲積網絡的神經科學基礎. . . . . . . 221

9.11捲積網絡與深度學習的歷史. . . . 226

第10章序列建模：循環和遞歸網絡. . . . 227

10.1展開計算圖. . . . . . . . . . . . . . . . . . . . . 228

10.2循環神經網絡. . . . . . . . . . . . . . . . . . .230

10.2.1導師驅動過程和輸出循環網絡232

10.2.2計算循環神經網絡的梯度. . . . 233

10.2.3作為有向圖模型的循環網絡. . 235

10.2.4基於上下文的RNN序列建模237

10.3雙向RNN . . . . . . . . . . . . . . . . . . . . . . 239

10.4基於編碼-解碼的序列到序列架構. . . . . . . . . . . . . . . . . . . . . . . 240

10.5深度循環網絡. . . . . . . . . . . . . . . . . . .242

10.6遞歸神經網絡. . . . . . . . . . . . . . . . . . .243

10.7長期依賴的挑戰. . . . . . . . . . . . . . . . 244

10.8迴聲狀態網絡. . . . . . . . . . . . . . . . . . . 245

10.9滲漏單元和其他多時間尺度的策略. . . . . . . . . . . . . . . . . . . . . . 247

10.9.1時間維度的跳躍連接. . . . . . . . .247

10.9.2滲漏單元和一系列不同時間尺度. . . . . . . . . . . . . . . . . . . . . . . 247

10.9.3刪除連接. . . . . . . . . . . . . . . . . . . 248

10.10長短期記憶和其他門控RNN . 248

10.10.1 LSTM . . . . . . . . . . . . . . . . . . . . 248

10.10.2其他門控RNN. . . . . . . . . . . . .250

10.11優化長期依賴. . . . . . . . . . . . . . . . . .251

10.11.1截斷梯度. . . . . . . . . . . . . . . . . . 251

10.11.2引導信息流的正則化. . . . . . . 252

10.12外顯記憶. . . . . . . . . . . . . . . . . . . . . . 253

第11章實踐方法論. . . . . . . . . . . . . . . . . . . . 256

11.1性能度量. . . . . . . . . . . . . . . . . . . . . . . .256

11.2默認的基準模型. . . . . . . . . . . . . . . . 258

11.3決定是否收集更多數據. . . . . . . . . 259

11.4選擇超參數. . . . . . . . . . . . . . . . . . . . . 259

11.4. 1手動調整超參數. . . . . . . . . . . . .259

11.4. 2自動超參數優化算法. . . . . . . . .262

11.4.3網格搜索. . . . . . . . . . . . . . . . . . . 262

11.4.4隨機搜索. . . . . . . . . . . . . . . . . . . 263

11.4.5基於模型的超參數優化. . . . . . 264

11.5調試策略. . . . . . . . . . . . . . . . . . . . . . . .264

11.6示例：多位數字識別. . . . . . . . . . . . 267

第12章應用. . . . . . . . . . . . . . . . . . . . . . . . . . . .269

12.1大規模深度學習. . . . . . . . . . . . . . . . 269

12.1.1快速的CPU實現. . . . . . . . . . . 269

12.1.2 GPU實現. . . . . . . . . . . . . . . . . . 269

12.1.3大規模的分佈式實現. . . . . . . . .271

12.1. 4模型壓縮. . . . . . . . . . . . . . . . . . . 271

12.1.5動態結構. . . . . . . . . . . . . . . . . . . 272

12.1. 6深度網絡的專用硬件實現. . . . 273

12.2計算機視覺. . . . . . . . . . . . . . . . . . . . . 274

12.2.1預處理. . . . . . . . . . . . . . . . . . . . . 275

12.2.2數據集增強. . . . . . . . . . . . . . . . . 277

12.3語音識別. . . . . . . . . . . . . . . . . . . . . . . .278

12.4自然語言處理. . . . . . . . . . . . . . . . . . .279

12.4.1 n-gram . . . . . . . . . . . . . . . . . . . . .280

12.4.2神經語言模型. . . . . . . . . . . . . . . 281

12.4.3高維輸出. . . . . . . . . . . . . . . . . . . 282

12.4.4結合n-gram和神經語言模型286

12.4.5神經機器翻譯. . . . . . . . . . . . . . . 287

12.4.6歷史展望. . . . . . . . . . . . . . . . . . . 289

12.5其他應用. . . . . . . . . . . . . . . . . . . . . . . .290

12.5.1推薦系統. . . . . . . . . . . . . . . . . . . 290

12.5.2知識表示、推理和回答. . . . . . . 292

第3部分深度學習研究

第13章線性因子模型. . . . . . . . . . . . . . . . . . 297

13.1概率PCA和因子分析. . . . . . . . . . 297

13.2獨立成分分析. . . . . . . . . . . . . . . . . . .298

13.3慢特徵分析. . . . . . . . . . . . . . . . . . . . . 300

13.4稀疏編碼. . . . . . . . . . . . . . . . . . . . . . . .301

13.5 PCA的流形解釋. . . . . . . . . . . . . . . 304

第14章自編碼器. . . . . . . . . . . . . . . . . . . . . . . 306

14.1欠完備自編碼器. . . . . . . . . . . . . . . . 306

14.2正則自編碼器. . . . . . . . . . . . . . . . . . .307

14.2.1稀疏自編碼器. . . . . . . . . . . . . . . 307

14.2.2去噪自編碼器. . . . . . . . . . . . . . . 309

14.2.3懲罰導數作為正則. . . . . . . . . . .309

14.3表示能力、層的大小和深度. . . . . 310

14.4隨機編碼器和解碼器. . . . . . . . . . . .310

14.5去噪自編碼器詳解. . . . . . . . . . . . . . 311

14.5.1得分估計. . . . . . . . . . . . . . . . . . . 312

14.5.2歷史展望. . . . . . . . . . . . . . . . . . . 314

14.6使用自編碼器學習流形. . . . . . . . . 314

14.7收縮自編碼器. . . . . . . . . . . . . . . . . . .317

14.8預測稀疏分解. . . . . . . . . . . . . . . . . . .319

14.9自編碼器的應用. . . . . . . . . . . . . . . . 319

第15 表示學習. . . . . . . . . . . . . . . . . . . . . . . 321

15.1貪心逐層無監督預訓練. . . . . . . . . 322

15.1.1何時以及為何無監督預訓練有效有效. . . . . . . . . . . . . . . . . . . 323

15.2遷移學習和領域自適應. . . . . . . . . 326

15.3半監督解釋因果關係. . . . . . . . . . . .329

15.4分佈式表示. . . . . . . . . . . . . . . . . . . . . 332

15.5得益於深度的指數增益. . . . . . . . . 336

15.6提供發現潛在原因的線索. . . . . . . 337

第16章深度學習中的結構化概率模型. 339

16.1非結構化建模的挑戰. . . . . . . . . . . .339

16.2使用圖描述模型結構. . . . . . . . . . . .342

16.2.1有向模型. . . . . . . . . . . . . . . . . . . 342

16.2.2無向模型. . . . . . . . . . . . . . . . . . . 344

16.2.3配分函數. . . . . . . . . . . . . . . . . . . 345

16.2.4基於能量的模型. . . . . . . . . . . . .346

16.2.5分離和d-分離. . . . . . . . . . . . . . .347

16.2.6在有向模型和無向模型中轉換350

16.2.7因子圖. . . . . . . . . . . . . . . . . . . . . 352

16.3從圖模型中採樣. . . . . . . . . . . . . . . . 353

16.4結構化建模的優勢. . . . . . . . . . . . . . 353

16.5學習依賴關係. . . . . . . . . . . . . . . . . . .354

16.6推斷和近似推斷. . . . . . . . . . . . . . . . 354

16.7結構化概率模型的深度學習方法. . . . . . . . . . . . . . . . . . . . . . . . .355

16.7.1實例：受限玻爾茲曼機. . . . . . . 356

第17章蒙特卡羅方法. . . . . . . . . . . . . . . . . . 359

17.1採樣和蒙特卡羅方法. . . . . . . . . . . .359

17.1.1為什麼需要採樣. . . . . . . . . . . . .359

17.1.2蒙特卡羅採樣的基礎. . . . . . . . .359

17.2重要採樣. . . . . . . . . . . . . . . . . . . . . . . .360

17.3馬爾可夫鏈蒙特卡羅方法. . . . . . . 362

17.4 Gibbs採樣. . . . . . . . . . . . . . . . . . . . . .365

17.5不同的峰值之間的混合挑戰. . . . 365

17.5.1不同峰值之間通過回火來混合367

17.5.2深度也許會有助於混合. . . . . . 368

第18章直面配分函數. . . . . . . . . . . . . . . . . . 369

18.1對數似然梯度. . . . . . . . . . . . . . . . . . .369

18.2隨機最大似然和對比散度. . . . . . . 370

18.3偽似然. . . . . . . . . . . . . . . . . . . . . . . . . . 375

18.4得分匹配和比率匹配. . . . . . . . . . . .376

18.5去噪得分匹配. . . . . . . . . . . . . . . . . . .378

18.6噪聲對比估計. . . . . . . . . . . . . . . . . . .378

18.7估計配分函數. . . . . . . . . . . . . . . . . . .380

18.7.1退火重要採樣. . . . . . . . . . . . . . . 382

18.7.2橋式採樣. . . . . . . . . . . . . . . . . . . 384

第19章近似推斷. . . . . . . . . . . . . . . . . . . . . . . 385

19.1把推斷視作優化問題. . . . . . . . . . . .385

19.2期望最大化. . . . . . . . . . . . . . . . . . . . . 386

19.3最大後驗推斷和稀疏編碼. . . . . . . 387

19.4變分推斷和變分學習. . . . . . . . . . . .389

19.4.1離散型潛變量. . . . . . . . . . . . . . . 390

19.4.2變分法. . . . . . . . . . . . . . . . . . . . . 394

19.4.3連續型潛變量. . . . . . . . . . . . . . . 396

19.4.4學習和推斷之間的相互作用. . 397

19.5學成近似推斷. . . . . . . . . . . . . . . . . . .397

19.5.1醒眠算法. . . . . . . . . . . . . . . . . . . 398

19.5.2學成推斷的其他形式. . . . . . . . .398

第20章深度生成模型. . . . . . . . . . . . . . . . . . 399

20.1玻爾茲曼機. . . . . . . . . . . . . . . . . . . . . 399

20.2受限玻爾茲曼機. . . . . . . . . . . . . . . . 400

20.2.1條件分佈. . . . . . . . . . . . . . . . . . . 401

20.2.2訓練受限玻爾茲曼機. . . . . . . . .402

20.3深度信念網絡. . . . . . . . . . . . . . . . . . .402

20.4深度玻爾茲曼機. . . . . . . . . . . . . . . . 404

20.4.1有趣的性質. . . . . . . . . . . . . . . . . 406

20.4.2 DBM均勻場推斷. . . . . . . . . . . 406

20.4.3 DBM的參數學習 . . . . . . . . . . . 408

20.4.4逐層預訓練. . . . . . . . . . . . . . . . . 408

20.4.5聯合訓練深度玻爾茲曼機. . . . 410

20.5實值數據上的玻爾茲曼機. . . . . . . 413

20.5.1 Gaussian-Bernoulli RBM . . . . 413

20.5.2條件協方差的無向模型. . . . . . 414

20.6捲積玻爾茲曼機. . . . . . . . . . . . . . . . 417

20.7用於結構化或序列輸出的玻爾茲曼機. . . . . . . . . . . . . . . . . . . . 418

20.8其他玻爾茲曼機. . . . . . . . . . . . . . . . 419

20.9通過隨機操作的反向傳播. . . . . . . 419

20.9.1通過離散隨機操作的反向傳播420

20.10有向生成網絡. . . . . . . . . . . . . . . . . .422

20.10.1 sigmoid信念網絡. . . . . . . . . . 422

20.10.2可微生成器網絡. . . . . . . . . . . .423

20.10.3變分自編碼器. . . . . . . . . . . . . .425

20.10. 4生成式對抗網絡. . . . . . . . . . . .427

20.10.5生成矩匹配網絡. . . . . . . . . . . .429

20.10.6捲積生成網絡. . . . . . . . . . . . . .430

20.10.7自回歸網絡. . . . . . . . . . . . . . . . 430

20.10.8線性自回歸網絡. . . . . . . . . . . .430

20.10 .9神經自回歸網絡. . . . . . . . . . . .431

20.10.10 NADE . . . . . . . . . . . . . . . . . . . 432

20.11從自編碼器採樣. . . . . . . . . . . . . . . 433

20.11.1與任意去噪自編碼器相關的馬爾可夫鏈. . . . . . . . . . . . . . . . 434

20.11. 2夾合與條件採樣. . . . . . . . . . . .434

20.11.3回退訓練過程. . . . . . . . . . . . . .435

20.12生成隨機網絡. . . . . . . . . . . . . . . . . .435

20.12.1判別性GSN . . . . . . . . . . . . . . . 436

20.13其他生成方案. . . . . . . . . . . . . . . . . .436

20.14評估生成模型. . . . . . . . . . . . . . . . . .437

20.15結論. . . . . 438

參考文獻. . . . . . . . . . . . .439

索引. . . . . . . . . . . . . . . . . 486

深度學習 深度学习(Deep learning)

[美]Ian Goodfellow（伊恩·古德費洛）、[加]Yoshua Bengio（約書亞·本吉奧）、[加]Aaron Courville（亞倫·庫維爾） 趙申劍 黎彧君 符天凡 李凱