視覺語言交互中的視覺推理研究

牛玉磊 著

  • 出版商: 機械工業
  • 出版日期: 2023-03-01
  • 定價: $294
  • 售價: 8.5$250
  • 語言: 簡體中文
  • 頁數: 160
  • 裝訂: 平裝
  • ISBN: 7111723031
  • ISBN-13: 9787111723035
  • 下單後立即進貨 (約4週~6週)

商品描述

《視覺語言交互中的視覺推理研究》的作者牛玉磊博士於2020年在中國人民大學取得博士學會,
後前往美國哥倫比亞大學開展博士後研究工作。
本書從知識建模和知識推斷兩方面入手,深入研究了視覺語言交互任務中的視覺推理問題。

《視覺語言交互中的視覺推理研究》共五章:
第1章主要介紹了計算機視覺與自然語言處理交叉領域中交互類問題的研究背景,
並分別從單輪交互、多輪交互、知識偏差三個角度選取了指稱語理解、視覺對話、視覺問答三個經典任務展開討論。
第2章主要介紹了單輪交互情形的代表性視覺推理任務,即指稱語理解問題,提出了變分背景框架,
根據視覺圖像和指稱語文本的聯繫及視覺物體之間的關係提取語義背景信息,並根據背景信息對指稱語進行定位。
第3章介紹了多輪交互情形的代表性視覺推理任務,即視覺對話問題,提出了遞歸注意力機制,
通過視覺指代消解的思想對圖像、對話和問題之間的聯繫進行建模,優化視覺表示。
第4章介紹了知識偏差情形的代表性視覺推理任務,即視覺問答問題,基於因果推理提出了反事實視覺問答框架,
在訓練環境和測試環境的答案分佈不一致情況下,通過因果效應的視角提取並去除語言偏差。
第5章對本書進行了總結,並對未來研究方向進行了展望。
 

目錄大綱

第1章引言
1.1 研究背景1
1.2 研究現狀5
1.2.1 指稱語理解6
1.2.2 視覺對話8
1.2.3 視覺問答11
1.3 研究內容與貢獻14
1.4 組織結構17
第2章單輪交互情形下的指稱語理解
2.1 研究概述20
2.2 相關工作23
2.3 變分背景框架26
2.3.1 問題表述26
2.3.2 指稱語理解29
2.3.3 指稱語生成31
2.3.4 模型實現32
2.4 實驗結果40
2.4.1 實驗設置40
2.4.2 指稱語理解實驗結果44
2.4.3 指稱語生成實驗結果55
2.5 小結57
第3章多輪交互情形下的視覺對話
3.1 研究概述60
3.2 相關工作64
3.3 預備知識66
3.4 遞歸視覺注意力模型66
3.4.1 判別模塊68
3.4.2 匹配模塊69
3.4.3 注意力模塊72
3.5 其他模塊73
3.5.1 語言特徵表示73
3.5.2 視覺特徵表示75
3.5.3 特徵優化與融合76
3.5.4 非線性映射78
3.5.5 Gumbel離散採樣79
3.6 實驗結果80
3.6.1 實驗設置80
3.6.2 實現細節82
3.6.3 對比方法82
3.6.4 實驗結果分析85
3.7 小結93
第4章知識偏差情形下的視覺問答
4.1 研究概述96
4.2 相關工作101
4.3 預備知識104
4.3.1 因果圖105
4.3.2 反事實表示105
4.3.3 因果效應106
4.4 基於簡化因果圖的反事實視覺問答107
4.4.1 反事實視覺問答框架108
4.4.2 技術實現110
4.5 基於完全因果圖的反事實視覺問答115
4.5.1 反事實視覺問答框架115
4.5.2 技術實現116
4.6 實現細節119
4.7 實驗結果120
4.7.1 實驗設置120
4.7.2 簡化因果圖實驗結果122
4.7.3 完全因果圖實驗結果134
4.8 小結137
第5章總結與展望
5.1 創新總結139
5.2 未來工作展望141
5.2.1 視覺推理任務142
5.2.2 知識建模142
5.2.3 知識偏差143