深度學習高手筆記 捲2:經典應用

劉岩(@大師兄)

  • 深度學習高手筆記 捲2:經典應用-preview-1
  • 深度學習高手筆記 捲2:經典應用-preview-2
深度學習高手筆記 捲2:經典應用-preview-1

買這商品的人也買了...

相關主題

商品描述

本書通過扎實、詳細的內容,從理論知識、算法源碼、實驗結果等方面對深度學習中涉及的算法進行分析和介紹。本書共三篇,第一篇主要介紹深度學習在目標檢測與分割方向的前沿算法,包括雙階段檢測、單階段檢測、無錨點檢測、特徵融合、損失函數、語義分割這 6 個方向;第二篇主要介紹深度學習在場景文字檢測與識別方向的重要突破,主要介紹場景文字檢測、場景文字識別這兩個階段的算法;第三篇主要介紹深度學習的其他算法與應用,包括圖像翻譯、圖神經網絡、二維結構識別、人像摳圖、圖像預訓練、多模態預訓練這6個方向的算法。附錄部分介紹雙線性插值、匈牙利算法、Shift-and-Stitch、德勞內三角化、圖像梯度、仿射變換矩陣等內容。

本書結構清晰,內容廣度與深度齊備。通過閱讀本書,讀者可以瞭解前沿的深度學習算法,擴展自己的算法知識面。無論是從事深度學習科研的教師及學生,還是從事算法落地實踐的工作人員,都能從本書中獲益。

作者簡介

刘岩,曾先后就读于重庆大学软件工程专业和澳门大学计算机科学专业,分别获得学士和硕士学位,期间发表多篇论文。目前就职于京东零售技术研发与数据中心,主要负责电商场景下的基础算法研究以及内容风控业务,包括风险舆情监控和挖掘、风险电商内容的发现和治理等。擅长前沿人工智能算法的原理分析和落地,先后参与并负责了深度学习多个算法在业务上的落地,例如 OCR、公式识别、手势识别、视频抠像、文本分类,预训练词向量模型、语言识别、图神经网络等。知乎账号:大师兄。

目錄大綱

第 一篇 目標檢測與分割

第 1 章 雙階段檢測 3

11 R-CNN 4

111 R-CNN 檢測流程 5

112 候選區域提取 6

113 預訓練及微調 7

114 訓練數據準備 7

115 NMS 8

116 小結 9

12 SPP-Net 9

121 空間金字塔池化 10

122 SPP-Net 的推理流程 11

123 小結 13

13 Fast R-CNN 13

131 Fast R-CNN 算法介紹 13

132 數據準備 14

133 Fast R-CNN 網絡結構 15

134 多任務損失函數 16

135 Fast R-CNN 的訓練細節17

136 Fast R-CNN 的推理流程18

137 小結 18

14 Faster R-CNN 18

141 區域候選網絡 18

142 Faster R-CNN 的訓練 22

143 小結 22

15 R-FCN 23

151 提出動機 23

152 R-FCN 的網絡 24

153 R-FCN 結果可視化 26

154 小結 27

16 Mask R-CNN 27

161 Mask R-CNN 的動機 28

162 Mask R-CNN 詳解 28

163 小結 31

17 MaskX R-CNN 31

171 權值遷移函數 32

172 MaskX R-CNN 的訓練 32

173 小結 33

18 DCNv1 和 DCNv2 33

181 DCNv1 33

182 DCNv2 36

183 小結 39

第 2 章 單階段檢測 40

21 YOLOv1 41

211 YOLOv1 的網絡結構 42

212 損失函數 44

213 小結 46

22 SSD 和 DSSD 47

221 SSD 48

222 DSSD 51

223 小結 53

23 YOLOv2 54

231 YOLOv2:更快,更高 54

232 YOLO9000:更強 59

233 小結 61

24 YOLOv3 61

241 多標簽任務 62

242 骨乾網絡 62

243 多尺度特徵 63

244 錨點聚類 63

245 YOLOv3 一些失敗的嘗試 64

246 小結 64

25 YOLOv4 65

251 背景介紹 65

252 數據 65

253 模型 69

254 後處理 78

255 YOLOv4 改進介紹 79

256 小結 82

第 3 章 無錨點檢測 83

31 DenseBox 84

311 DenseBox 的網絡結構 84

312 多任務模型 85

313 訓練數據 86

314 結合關鍵點檢測 87

315 測試 88

316 小結 88

32 CornerNet 89

321 背景 89

322 CornerNet 詳解 90

323 小結 95

33 CornerNet-Lite 96

331 CornerNet-Saccade 96

332 CornerNet-Squeeze 99

333  小結 99

34 CenterNet 99

341 網絡結構 100

342 數據準備 102

343 損失函數 103

344 推理過程 104

345 小結 104

35 FCOS 104

351 算法背景 105

352 FCOS 的網絡結構 105

353 多尺度預測 107

354 測試 107

355 小結 107

36 DETR 107

361 網絡結構 108

362 損失函數 109

363 小結 111

第 4 章 特徵融合 112

41 FPN 113

411 CNN 中的常見骨乾網絡 113

412 FPN 的網絡結構 114

413 FPN 的應用 116

414 小結 116

42 PANet 117

421 PANet 117

422 小結 120

43 NAS-FPN 121

431 NAS-FPN 算法詳解 121

432 NAS-FPN Lite 125

433 小結 125

44 Effi cientDet 125

441 BiFPN 126

442 EfficientDet 詳解 127

443 小結 128

第 5 章 損失函數 129

51 Focal Loss 129

511 Focal Loss 介紹 130

512 RetinaNet132

513 小結132

52 IoU 損失 133

521 背景知識 133

522 IoU 損失133

523 UnitBox 網絡結構135

524 小結136

53 GIoU 損失 136

531 算法背景 136

532 GIoU 損失詳解137

533 小結139

54 DIoU 損失和 CIoU 損失 140

541 背景140

542 DIoU 損失141

543 CIoU 損失142

544 小結142

55 Focal-EIoU 損失 143

551 EIoU 損失143

552 Focal L1 損失144

553 Focal-EIoU 損失146

554 小結146

第 6 章 語義分割 147

61 FCN 和 SegNet 148

611 背景知識 148

612 FCN 詳解149

613 SegNet 詳解150

614 分割指標 151

615 小結152

62 U-Net 152

621 U-Net 詳解153

622 數據擴充 155

623 小結155

63 V-Net 156

631 網絡結構 156

632 Dice 損失 160

633 小結161

64 DeepLab 系列 161

641 DeepLab v1161

642 DeepLab v2164

643 DeepLab v3165

644 DeepLab v3+167

645 小結170

第二篇 場景文字檢測與識別

第 7 章 場景文字檢測 173

71 DeepText 173

711 RPN 回顧174

712 DeepText 詳解175

713 小結175

72 CTPN 176

721 算法流程 176

722 數據準備 177

723 CTPN 的錨點機制 177

724 CTPN 中的 RNN178

725 邊界微調 178

726 CTPN 的損失函數 179

727 小結179

73 RRPN 179

731 RRPN 詳解180

732 位置精校 183

733 小結184

74 HED 185

741 HED 的骨乾網絡 186

742 整體嵌套網絡 186

743 HED 的損失函數 187

744 小結 188

75 HMCP 188

751 HMCP 的標簽值 189

752 HMCP 的骨乾網絡 190

753 訓練 190

754 檢測 191

755 小結 193

76 EAST 193

761 網絡結構 193

762 EAST 的標簽生成 194

763 EAST 的損失函數 196

764 局部感知 NMS 196

765 Advanced-EAST 197

766 小結 198

77 PixelLink 198

771 骨乾網絡 199

772 PixelLink 的標簽 199

773 PixelLink 的損失函數 200

774 後處理 201

775 小結 201

第 8 章 場景文字識別 202

81 STN 202

811 空間變形模塊 203

812 STN 205

813 STN 的應用場景 205

814 小結 207

82 RARE 207

821 基於 TPS 的 STN 208

822 序列識別網絡 210

823 訓練 212

824 基於字典的測試 212

825 小結 212

83 Bi-STET 212

831 殘差網絡 213

832 編碼層 213

833 解碼層 214

834 小結 214

84 CTC 214

841 算法詳解 215

842 小結 219

第三篇 其他算法與應用

第 9 章 圖像翻譯 223

91 GAN 223

911 邏輯基礎 224

912 GAN 的訓練 224

913 GAN 的損失函數 225

914 理論證明 226

915 小結 230

92 Pix2Pix 230

921 背景知識 231

922 Pix2Pix 解析 232

923 小結 234

93 Pix2PixHD 235

931 網絡結構 235

932 輸入數據 240

933 損失函數 241

934 圖像生成 241

935 小結 242

94 圖像風格遷移 242

941 算法概覽 243

942 內容表示 244

943 風格表示 245

944 風格遷移 246

945 小結247

第 10 章 圖神經網絡248

101 GraphSAGE 249

1011 背景知識 249

1012 算法詳解 249

1013 小結254

102 GAT 254

1021 GAT 詳解 254

1022 GAT 的推理257

1023 GAT 的屬性257

1024 小結258

103 HAN 258

1031 基本概念 258

1032 HAN 詳解259

1033 小結261

第 11 章 二維結構識別 262

111 Show and Tell 262

1111 網絡結構 263

1112 解碼264

1113 小結264

112 Show Attend and Tell 264

1121 整體框架 265

1122 小結268

113 數學公式識別268

1131 基礎介紹 269

1132 公式識別模型詳解272

1133 小結277

第 12 章 人像摳圖278

121 Background Matting 278

1211 輸入279

1212 生成模型 280

1213 判別模型 280

1214 模型訓練 281

1215 模型推理 282

1216 小結282

122 Background Matting v2 283

1221 問題定義 283

1222 網絡結構 284

1223 訓練286

1224 小結286

第 13 章 圖像預訓練287

131 MAE 287

1311 算法動機 287

1312 掩碼機制 288

1313 模型介紹 289

1314 小結291

132 BEiT v1 291

1321 背景介紹 292

1322 BEiT v1 全覽292

1323 BEiT v1 的模型結構293

1324 掩碼圖像模型 294

1325 BEiT v1 的損失函數294

1326 小結295

133 BEiT v2 295

1331 背景介紹 295

1332 BEiT v2 概述296

1333 矢量量化 - 知識蒸餾296

1334 BEiT v2 預訓練297

1335 小結298

第 14 章 多模態預訓練 299

141 ViLBERT 299

1411 模型結構 300

1412 預訓練任務 301

1413 模型微調 302

1414 小結 303

142 CLIP 304

1421 數據收集 304

1422 學習目標:對比學習(Contrastive

Learning)預訓練 304

1423 圖像編碼器 305

1424 文本編碼器 306

1425 CLIP 用於圖像識別 306

1426 模型效果 306

1427 小結 307

143 DALL-E 307

1431 背景知識:變分自編碼器 308

1432 階段一:離散變分自編碼器309

1433 階段二:先驗分佈學習 310

1434 圖像生成 312

1435 混合精度訓練 312

1436 分佈式運算 313

1437 小結 313

144 VLMo 314

1441 算法動機 314

1442 MoME Transformer 314

1443 VLMo 預訓練 315

1444 小結 318

145 BEiT v3 318

1451 背景:大融合 319

1452 BEiT v3 詳解320

1453 小結 322

附錄 A 雙線性插值 323

附錄 B 匈牙利算法 324

附錄 C Shift-and-Stitch 325

附錄 D 德勞內三角化 328

附錄 E 圖像梯度 329

附錄 F 仿射變換矩陣 330