多模態大模型技術及應用
王卓
- 出版商: 化學工業
- 出版日期: 2026-05-01
- 售價: $594
- 語言: 簡體中文
- ISBN: 7122497232
- ISBN-13: 9787122497239
-
相關分類:
Large language model
尚未上市,歡迎預購
商品描述
本書通過豐富的實戰案例,全面介紹多模態大模型的核心原理、數據處理方法與模型優化策略。全書共9章,結構層層遞進。第1章和第2章介紹了多模態大模型的基礎理論與數據處理技術,包括多模態數據的特征、預處理方法與增強策略。第3章和第4章詳細闡述了多模態表示學習與嵌入方法,涵蓋數據融合、模態對齊、聯合學習等關鍵技術。第5章全面展示了多模態模型的訓練與微調策略,如註意力機制、對比學習與混合精度訓練等優化方法。第6章深入探討了OpenAI的多模態模型CLIP,幫助讀者掌握訓練、增強和微調CLIP的知識。第7章介紹了基於CPM中英雙語多模態大模型的文生圖系統實現過程。第8章和第9章分別介紹了DeepSeek多模態大模型和基於Latent Diffusion Transformer的文生視頻系統的構建過程。
本書適合人工智能工程師、深度學習研究者、AI產品開發人員、高校師生以及希望轉型AI領域的技術人員閱讀。無論是希望夯實多模態模型基礎,還是尋找前沿實戰案例,本書都將為您提供全面的參考與指導。
目錄大綱
第1章 多模態大模型開發基礎 001
1.1 大模型介紹 002
1.1.1 什麼是大模型 002
1.1.2 大模型技術的發展 002
1.1.3 大模型的作用 003
1.2 多模態技術簡介 004
1.2.1 什麼是多模態 004
1.2.2 多模態技術的發展 004
1.2.3 多模態技術的應用場景 005
1.3 多模態數據類型 006
1.3.1 常見的多模態類型 007
1.3.2 圖像數據 007
1.3.3 文本數據 008
1.3.4 音頻數據 008
1.3.5 視頻數據 009
1.4 多模態技術的基本原理 009
1.4.1 數據融合與對齊 009
1.4.2 多模態表示學習 010
1.4.3 多模態推理 011
第2章 多模態數據處理 012
2.1 文本預處理 013
2.1.1 數據清洗和處理 013
2.1.2 數據轉換與整合 020
2.1.3 數據標準化與歸一化 023
2.2 圖像預處理 029
2.2.1 歸一化 029
2.2.2 去噪 031
2.2.3 圖像裁剪和縮放 036
2.3 音頻預處理 037
2.3.1 采樣率調整 037
2.3.2 音頻分幀 039
2.3.3 加窗 040
2.3.4 傅裏葉變換 042
2.3.5 聲譜圖 044
2.4 視頻預處理 045
2.4.1 視頻預處理技術 045
2.4.2 對指定視頻實現預處理 046
2.5 數據增強 047
2.5.1 文本數據增強 047
2.5.2 圖像數據增強 049
2.5.3 音頻數據增強 051
第3章 多模態表示學習 054
3.1 多模態表示學習方法介紹 055
3.2 表示融合 056
3.2.1 表示融合方法介紹 056
3.2.2 實戰演練:實現一個多模態情感識別模型 057
3.3 聯合學習 061
3.3.1 實現聯合學習的流程 062
3.3.2 實戰演練:實現多模態模型的聯合學習 062
3.4 表示對齊 065
3.4.1 表示對齊方法 066
3.4.2 實戰演練:實現多模態模型之間的表示對齊 066
3.5 模態間的關系建模 070
3.5.1 實現模態間關系建模的方法 070
3.5.2 實戰演練:在多模態場景中實現模態間關系建模 071
第4章 多模態嵌入表示 074
4.1 多模態嵌入介紹 075
4.2 圖像嵌入 076
4.2.1 圖像嵌入基礎 076
4.2.2 圖像特征提取 077
4.2.3 模態對齊 081
4.2.4 CLIP 088
4.2.5 DALL-E 090
4.3 文本嵌入 092
4.3.1 文本嵌入方法 092
4.3.2 實戰演練:使用BERT實現文本嵌入 093
4.3.3 實戰演練:基於CLIP的文本嵌入 096
4.4 音頻嵌入 099
4.4.1 音頻特征提取 099
4.4.2 常用的音頻嵌入模型 101
第5章 訓練多模態模型 102
5.1 多模態模型的訓練過程 103
5.2 常用訓練策略實戰演練 104
5.2.1 預訓練與微調 104
5.2.2 多任務學習 107
5.2.3 自註意力機制 110
5.2.4 對比學習 111
5.2.5 數據增強 113
5.2.6 遷移學習 114
5.2.7 正則化技術 116
5.2.8 動態學習率調整 118
5.2.9 混合精度訓練 119
第6章 OpenAI的多模態模型:CLIP 122
6.1 CLIP介紹 123
6.1.1 CLIP的架構 123
6.1.2 CLIP的優點和缺點 123
6.2 CLIP的增強訓練的準備工作 123
6.2.1 功能模塊介紹 123
6.2.2 定義數據集 123
6.3 模型的構建、訓練與評估 123
6.3.1 創建模型 123
6.3.2 分詞器 123
6.3.3 損失函數 123
6.3.4 訓練模型 123
6.3.5 評估模型 123
6.3.6 文本重寫 123
第7章 基於CPM中英雙語多模態大模型的文生圖系統 124
7.1 項目介紹 125
7.2 項目架構 125
7.3 圖像處理和增強 126
7.4 文本處理 140
7.5 實現模型 144
7.5.1 模型組件 145
7.5.2 圖像和張量處理工具 161
7.5.3 定義和配置BEiT3模型 162
7.5.4 CPMBeeTorch模型 164
7.5.5 基於Stable Diffusion的圖像生成模型 169
7.5.6 多模態模型 173
7.6 文本生成 176
7.6.1 輔助函數 176
7.6.2 生成文本響應 178
7.7 圖文交互 190
7.8 繪畫模型 192
7.9 模型微調 196
7.9.1 工具類 196
7.9.2 處理和構建數據集 201
7.9.3 訓練初始化 209
7.9.4 模型配置和訓練 211
7.9.5 保存配置文件 217
7.10 調試運行 217
7.10.1 文生圖程序 218
7.10.2 聊天程序 219
第8章 DeepSeek多模態大模型 221
8.1 DeepSeek多模態大模型簡介 222
8.2 整體架構設計 222
8.2.1 模型定位與技術目標 222
8.2.2 核心模塊組成 222
8.2.3 設計哲學與核心考量 222
8.3 Janus項目源碼分析 222
8.3.1 對話管理 222
8.3.2 數據加載 222
8.3.3 構建多模態模型 222
8.3.4 JanusFlow模型架構 222
8.3.5 模型推理 222
8.3.6 準備DeepSeek多模態大模型API 222
8.3.7 在線測試DeepSeek多模態大模型 222
第9章 基於Latent Diffusion Transformer的文生視頻系統 223
9.1 項目介紹 224
9.1.1 背景介紹 224
9.1.2 主要貢獻 224
9.2 項目架構 225
9.3 系統配置 226
9.3.1 FaceForensics數據集配置 226
9.3.2 配置Sky Timelapse數據集 228
9.3.3 配置其他數據集 229
9.4 數據集處理 230
9.4.1 處理FaceForensics數據集中的視頻數據 230
9.4.2 加載並處理SkyImages數據集 233
9.4.3 加載並處理Taichi數據集 235
9.4.4 加載並處理UCF101數據集 237
9.4.5 視頻數據的預處理和增強 242
9.5 擴散模型 253
9.5.1 擴散模型的輔助工具 253
9.5.2 高層擴散模型的核心邏輯 254
9.6 實現模型 259
9.6.1 文本嵌入模型 259
9.6.2 多模態視頻處理模型 261
9.6.3 圖像生成模型 272
9.6.4 二維Transformer模型 273
9.7 訓練模型 276
9.7.1 基本訓練 277
9.7.2 視頻圖像聯合訓練 281
9.7.3 PyTorch Lightning訓練腳本 282
9.8 模型性能評估 282
9.8.1 評估工具 283
9.8.2 FVD評估 287
9.8.3 評估生成視頻的質量 288
9.8.4 性能評估 289
9.9 采樣 292
9.9.1 基於Latte模型的采樣 292
9.9.2 基於分布式數據並行生成視頻 294
9.9.3 文本生成視頻 297
