遷移學習導論

王晉東,陳益強

買這商品的人也買了...

商品描述

遷移學習作為機器學習和人工智能領域的重要方法,在電腦視覺、自然語言處理、語音識別等領域都得到了廣泛的應用。本書的編寫目的是幫助遷移學習及機器學習相關領域的初學者快速入門。全書主要分為背景與概念、方法與技術、擴展與探索及應用與展望四大部分。除此之外,本書還配有相關的代碼、數據和論文資料,最大限度地降低初學者的學習和使用門檻。本書適合對遷移學習感興趣的讀者閱讀,也可以作為相關課程的配套教材。

作者簡介

王晉東
微軟亞洲研究院研究員、中國科學院計算技術研究所博士,主要從事遷移學習、深度學習方面的研究。
研究成果發表在IEEE TNNLS、ACM TIST、CVPR、IJCAI、ACMMM、UbiComp等頂級期刊和會議,獲得國家獎學金、中國科學院百篇優秀博士論文獎、中科院計算所所長特別獎學金等。擔任國際會議IJCAI 2019的宣傳主席、頂級國際期刊會議IEEE TPAMI、TKDE、ICML、NeurIPS、ICLR、CVPR等的審稿人或程序委員會委員。
熱心知識分享,在知乎的博客文章瀏覽次數逾700萬次。


陳益強
中國科學院計算技術研究所所務委員、研究員、CCF Fellow。
北京市移動計算與新型終端重點實驗室主任、中科院計算所泛在計算系統研究中心主任、中科院計算所泛在智能研究院院長。
曾入選國家“萬人計劃”科技創新領軍人才、科技部中青年科技創新領軍人才、北京市科技新星等;國務院政府特殊津貼專家,擔任東京大學、南洋理工大學兼職教授,以及IJMLC等6個刊物的編委、IEEE可穿戴與智能交互技術委員會創始委員等。
獲IJCAI-FL最佳應用論文獎等在內的會議最佳論文獎6項;相關成果獲7項國家及省部級科技獎。

目錄大綱

目錄
第一部分背景與概念
第1 章緒論3
1.1 遷移學習3
1.2 相關研究領域 6
1.3 遷移學習的必要性8
1.3.1 大數據與少標註之間的矛盾 8
1.3.2 大數據與弱計算能力的矛盾 8
1.3.3 有限數據與模型泛化能力的矛盾 9
1.3.4 普適化模型與個性化需求的矛盾 9
1.3.5 特定應用的需求10
1.4 遷移學習的研究領域11
1.4.1 按特徵空間分類12
1.4.2 按目標域有無標籤分類12
1.4.3 按學習方法分類12
1.4.4 按離線與在線形式分類13
1.5 遷移學習的應用14
1.5.1 計算機視覺14
1.5.2 自然語言處理15
1.5.3 普適計算與人機交互16
1.5.4 醫療健康17
1.6 學術會議和工業界中的遷移學習18

第2 章從機器學習到遷移學習21
2.1 機器學習及基本概念21
2.2 結構風險最小化22
2.3 數據的概率分佈23
2.4 概念與符號25
2.5 遷移學習的問題定義26

第3 章遷移學習基本問題29
3.1 何處遷移30
3.2 何時遷移32
3.3 如何遷移32
3.4 失敗的遷移:負遷移33
3.5 完整的遷移學習過程35

第二部分方法與技術
第4 章遷移學習方法總覽39
4.1 遷移學習總體思路39
4.2 分佈差異的度量40
4.2.1 百花齊放的遷移學習分佈度量41
4.2.2 分佈差異的統一表徵42
4.2.3 分佈自適應因子的計算44
4.3 遷移學習統一表徵45
4.3.1 樣本權重遷移法46
4.3.2 特徵變換遷移法47
4.3.3 模型預訓練遷移法48
4.3.4 小結48
4.4 上手實踐48
4.4.1 數據準備49
4.4.2 基準模型構建:KNN 51
4.5 遷移學習理論53
4.5.1 概念與符號54
4.5.2 基於H-divergence 的理論分析54
4.5.3 基於HΔH-distance 的理論分析55
4.5.4 基於差異距離的理論分析57
4.5.5 結合標籤函數差異的理論分析58

第5 章樣本權重遷移法59
5.1 問題定義59
5.1.1 樣本權重遷移法的可行性分析59
5.1.2 形式化定義60
5.2 基於樣本選擇的方法61
5.2.1 基於非強化學習的樣本選擇法62
5.2.2 基於強化學習的樣本選擇法63
5.3 基於權重自適應的方法64
5.4 上手實踐66
5.5 小結68

第6 章統計特徵變換遷移法69
6.1 問題定義69
6.2 最大均值差異法70
6.2.1 基本概念70
6.2.2 基於最大均值差異的遷移方法72
6.2.3 求解與計算75
6.2.4 應用與擴展76
6.3 度量學習法78
6.3.1 從預定義的距離到可學習的距離78
6.3.2 度量學習及其形式化79
6.3.3 基於度量學習的遷移學習80
6.4 上手實踐81
6.4.1 算法精煉81
6.4.2 編寫代碼82
6.5 小結84

第7 章幾何特徵變換遷移法85
7.1 問題定義85
7.2 子空間變換法86
7.3 流形學習法87
7.3.1 流形學習87
7.3.2 基於流形學習的遷移學習方法88
7.4 最優傳輸法91
7.4.1 最優傳輸91
7.4.2 基於最優傳輸法的遷移學習方法92
7.5 上手實踐94
7.6 小結97

第8 章預訓練方法99
8.1 深度網絡的可遷移性99
8.2 預訓練–微調102
8.3 預訓練方法的有效性分析105
8.4 自適應的預訓練方法106
8.5 重新思考預訓練模型的使用108
8.6 上手實踐110
8.7 小結113

第9 章深度遷移學習115
9.1 總體思路116
9.2 深度遷移學習的網絡結構117
9.2.1 單流結構118
9.2.2 雙流結構118
9.3 數據分佈自適應的深度遷移學習方法120
9.3.1 邊緣分佈自適應120
9.3.2 條件、聯合與動態分佈自適應121
9.4 結構自適應的深度遷移學習方法122
9.4.1 批歸一化123
9.4.2 批歸一化用於遷移學習123
9.4.3 基於多表示學習的遷移網絡結構124
9.5 知識蒸餾125
9.6 上手實踐127
9.6.1 網絡結構127
9.6.2 損失129
9.6.3 訓練131
9.6.4 測試132
9.7 小結133

第10 章對抗遷移學習135
10.1 生成對抗網絡135
10.2 對抗遷移學習基本思路136
10.3 數據分佈自適應的對抗遷移方法137
10.4 基於信息解耦的對抗遷移方法140
10.5 基於數據生成的對抗遷移方法141
10.6 上手實踐142
10.6.1 領域判別器143
10.6.2 分佈差異計算143
10.6.3 梯度反轉層144
10.7 小結145

第11 章遷移學習熱門研究問題147
11.1 類別不均衡的遷移學習148
11.2 多源遷移學習150
11.3 開放集遷移學習153
11.4 時間序列的遷移學習154
11.5 聯邦遷移學習158
11.5.1 聯邦學習158
11.5.2 聯邦遷移學習160
11.6 基於因果關係的遷移學習161
11.6.1 什麼是因果關係161
11.6.2 因果關係與遷移學習163
11.7 自動遷移學習168
11.8 在線遷移學習171

第三部分擴展與探索
第12 章領域泛化177
12.1 領域泛化問題177
12.1.1 背景177
12.1.2 問題定義179
12.1.3 常用方法180
12.2 基於數據分佈自適應的方法181
12.2.1 領域無關成分分析DICA181
12.2.2 深度數據分佈自適應183
12.3 基於解耦的方法184
12.4 基於集成模型的方法186
12.5 基於數據生成的方法187
12.5.1 領域隨機法187
12.5.2 對抗數據生成188
12.6 基於元學習的方法190
12.7 小結191

第13 章元學習193
13.1 元學習簡介193
13.1.1 問題背景193
13.1.2 元學習194
13.2 基於模型的元學習方法196
13.3 基於度量的元學習方法198
13.4 基於優化的元學習方法199
13.5 元學習的應用與挑戰201
13.5.1 應用201
13.5.2 現存的挑戰202
13.6 小結202

第14 章遷移學習模型選擇205
14.1 模型選擇205
14.2 基於密度估計的模型選擇206
14.3 遷移交叉驗證207
14.4 小結208

第四部分應用與展望
第15 章遷移學習的應用211
15.1 計算機視覺212
15.2 自然語言處理214
15.3 語音識別與合成216
15.4 普適計算與人機交互218
15.5 醫療健康領域220
15.6 其他應用223
15.7 小結225

第16 章遷移學習前沿227
16.1 融合人類經驗的遷移227
16.2 遷移強化學習228
16.3 遷移學習的可解釋性228
16.4 遷移學習系統229

附錄A231
A.1 常用度量準則231
A.1.1 常見的幾種距離231
A.1.2 餘弦相似度232
A.1.3 互信息232
A.1.4 相關係數232
A.1.5 KL 散度與JS 距離233
A.1.6 最大均值差異MMD 233
A.1.7 Principal Angle 234
A.1.8 A-distance234
A.1.9 希爾伯特–施密特獨立性係數234
A.1.10 Wasserstein Distance234
A.2 遷移學習常用數據集235
A.2.1 手寫體識別圖像數據集235
A.2.2 對象識別數據集236
A.2.3 圖像分類數據集237
A.2.4 通用文本分類數據集237
A.2.5 行為識別公開數據集238
A.3 本書相關資源238

參考文獻241