深度學習 — 從神經網絡到深度強化學習的演進

魏翼飛、汪昭穎、李駿

  • 深度學習 — 從神經網絡到深度強化學習的演進-preview-1
  • 深度學習 — 從神經網絡到深度強化學習的演進-preview-2
  • 深度學習 — 從神經網絡到深度強化學習的演進-preview-3
深度學習 — 從神經網絡到深度強化學習的演進-preview-1

買這商品的人也買了...

相關主題

商品描述

本書首先概述人工智能、深度學習相關的基本概念和發展歷程;然後詳細介紹深度學習的基本理論和 算法,包括神經網絡的關鍵技術、捲積神經網絡的主要框架和應用實例、循環神經網絡和無監督學習深度 神經網絡的模型和應用、深層神經網絡的參數優化方法、深度學習模型的輕量化方案以及移動端深度學習 案例;之後闡述強化學習的基本理論和算法,包括傳統的強化學習方法及其衍生算法以及新型的多智能體 或多任務學習模型;最後介紹深度強化學習的具體算法及應用、遷移學習的概念及其在深度學習和強化學 習中的應用。 本書可作為學習深度學習及強化學習算法的參考書,也可作為高等院校相關課程的教材,還可供從事 人工智能領域的專業研究人員和工程技術人員閱讀。

作者簡介

魏翼飛 
北京郵電大學教授,博士生導師。
加拿大卡爾頓大學聯合培養博士,愛爾蘭都柏林城市大學博士後,北京郵電大學理學院副院長(2014—2016年),美國休斯頓大學訪問學者(2016—2017年)。
目前主要研究深度學習、強化學習及區塊鏈技術。
作為負責人先後主持3項國家自然科學基金項目,參與完成了3項國家科技重大專項、2項國家科技支撐計劃項目。
在國內外學術期刊上發表SCI檢索論文20餘篇,EI檢索論文30餘篇,申請專利30餘項。

汪昭穎 
北京郵電大學博士研究生,目前主要研究方向為深度學習、強化學習、邊緣計算等技術。

李 駿 
江蘇省科技企業家(2018屆),視覺檢測專家。
曾主持研發多個軌道交通視覺檢測系統。
先後獲得中國鐵道學會科學技術獎二等獎及三等獎各1項、北京市科學技術二等獎、上海市科學技術一等獎等獎項,已獲得授權專利80餘項。
目前主要研究方向涵蓋光電檢測系統、高速3D重構、多維數據融合、深度學習等。

目錄大綱

目錄

第1章人工智能與深度學習概述
1.1人工智能與機器學習
1.1.1人工智能的發展歷程
1.1.2機器學習及深度學習的發展歷程
1.1.3人工智能與機器學習及深度學習的關係
1.2機器學習的分類
1.2.1監督學習
1.2.2非監督學習
1.2.3半監督學習
1.2.4強化學習
1.2.5其他分類方式
1.3深度學習的分類及發展趨勢
1.3.1深度神經網絡
1.3.2卷積神經網絡
1.3.3其他深度神經網絡
1.3.4深度學習的發展趨勢
1.4深度學習與強化學習的結合
1.4.1強化學習
1.4.2強化學習算法分類
1.4.3深度強化學習
本章小結

第2章神經網絡與深度學習
2.1深度學習簡介
2.1.1傳統機器學習算法與深度學習算法對比
2.1.2深度學習發展歷程
2.2圖像分類問題
2.2.1KNN分類器
2.2.2線性分類器
2.2.3損失及優化
2.3損失函數
2.3.1摺頁損失函數
2.3.2交叉熵損失函數
2.4反向傳播算法
2.4.1計算圖
2.4.2反向傳播舉例
2.5人工神經網絡
2.5.1神經網絡的結構
2.5.2神經網絡的分類
2.6激活函數
2.6.1常用激活函數
2.6.2各種激活函數的優缺點
本章小結

第3章卷積神經網絡
3.1基本概念
3.1.1卷積
3.1.2池化
3.1.3經典網絡LeNet5
3.2幾種卷積神經網絡介紹
3.2.1AlexNet
3.2.2VGGNet
3.2.3NIN
3.2.4GoogLeNet
3.2.5ResNet
3.3計算機視覺問題
3.3.1圖像分類
3.3.2目標定位
3.3.3目標檢測
3.3.4圖像分割
3.4深度學習應用實例
3.4.1深度學習框架
3.4.2MNIST手寫數字識別
3.4.3基於DeepLabV3+模型的軌道圖像分割
本章小結

第4章循環神經網絡及其他深層神經網絡
4.1從DNN到RNN
4.1.1RNN結構
4.1.2深度 RNN
4.1.3RNN的訓練
4.2RNN變體
4.2.1LSTM
4.2.2GRU
4.2.3其他結構
4.3RNN應用舉例
4.3.1時序數據預測
4.3.2自然語言處理
4.4自編碼器
4.4.1稀疏自編碼器
4.4.2去噪自編碼器
4.4.3壓縮自編碼器
4.5深度生成式模型
4.5.1全可見信念網絡
4.5.2變分自編碼器
4.5.3生成式對抗網絡
本章小結

第5章深層神經網絡的訓練方法
5.1參數更新方法
5.1.1梯度下降算法的問題
5.1.2基於動量的更新
5.1.3二階優化方法
5.1.4共軛梯度
5.1.5擬牛頓法
5.2自適應學習率算法
5.2.1學習率衰減
5.2.2AdaGrad算法
5.2.3RMSProp算法
5.2.4AdaDelta算法
5.2.5Adam算法
5.2.6幾種常見優化算法的比較
5.3參數初始化
5.3.1合理初始化的重要性
5.3.2隨機初始化
5.3.3Xavier初始化
5.3.4He初始化
5.3.5批量歸一化
5.3.6預訓練
5.4網絡正則化
5.4.1正則化的目的
5.4.2L1和L2正則化
5.4.3權重衰減
5.4.4提前停止
5.4.5數據增強
5.4.6丟棄法
5.4.7標籤平滑
5.5訓練深層神經網絡的小技巧
5.5.1數據預處理
5.5.2超參數調優
5.5.3集成學習
5.5.4監視訓練過程
本章小結

第6章輕量化神經網絡模型
6.1深度學習輕量化模型
6.1.1SqueezeNet模型
6.1.2MobileNet模型
6.1.3ShuffleNet模型
6.1.4Xception模型
6.2深度神經網絡模型壓縮
6.2.1推理階段的壓縮算法
6.2.2訓練階段的壓縮算法
6.3深度神經網絡的硬件加速
6.3.1推理階段的硬件加速
6.3.2訓練階段的硬件加速
6.4移動端深度學習
6.4.1移動端深度學習概述
6.4.2移動端深度學習框架
6.4.3移動端深度學習示例
本章小結

第7章強化學習算法
7.1強化學習綜述
7.1.1目標、單步獎勵與累積回報
7.1.2馬爾可夫決策過程
7.1.3值函數與最優值函數
7.2動態規劃方法
7.2.1策略迭代
7.2.2值迭代
7.3基於值函數的強化學習算法
7.3.1基於蒙特卡羅的強化學習算法
7.3.2基於時間差分的強化學習算法
7.3.3TDλ算法
7.4基於策略梯度的強化學習算法
7.4.1何時應用基於策略的學習方法
7.4.2策略梯度詳解
7.4.3蒙特卡羅策略梯度算法
7.4.4ActorCritic算法
7.5值函數近似和衍生算法
7.5.1值函數近似
7.5.2基於值函數近似的TD方法
7.5.3基於線性值函數近似的GTD方法
7.5.4OffPolicy ActorCritic算法
本章小結

第8章多智能體多任務學習
8.1多智能體學習
8.1.1多智能體強化學習背景
8.1.2多智能體強化學習任務分類及算法介紹
8.1.3多智能體增強學習平台
8.2多任務學習
8.2.1多任務學習的背景與定義
8.2.2多任務監督學習
8.2.3其他多任務學習
8.2.4多任務學習的應用
8.3元學習
8.3.1從模型評估中學習
8.3.2從任務特徵中學習
8.4聯邦學習
8.4.1背景
8.4.2聯邦學習的特點及優勢
8.4.3聯邦學習的分類
8.4.4聯邦學習的應用
本章小結

第9章深度強化學習
9.1基於值函數的深度強化學習
9.1.1深度Q學習
9.1.2深度Q學習的衍生方法
9.2基於策略梯度的深度強化學習
9.2.1深度確定性策略梯度算法
9.2.2異步深度強化學習算法
9.2.3信賴域策略優化及其衍生算法
9.3深度強化學習的應用
9.3.1計算機圍棋程序AlphaGo
9.3.2深度強化學習的其他應用
9.3.3深度強化學習在通信網絡中的應用
本章小結

第10章遷移學習
10.1遷移學習簡介及分類
10.1.1遷移學習概述
10.1.2遷移學習的分類
10.2遷移學習的應用
10.2.1遷移學習在深度學習中的應用
10.2.2遷移學習在強化學習中的應用
本章小結

附錄A最近鄰算法實現代碼
附錄BTensorFlow訓練LeNet5網絡實現代碼
附錄C基於DeepLabv3+模型的軌道圖像分割
附錄D時序數據預測實現代碼
附錄E自然語言處理實現代碼
附錄F移動端深度學習示例

參考文獻