多模態大模型技術及應用

王卓

出版商: 化學工業
出版日期: 2026-05-01
售價: $594
貴賓價: 9.5 折 $564
語言: 簡體中文
頁數: 300
ISBN: 7122497232
ISBN-13: 9787122497239
相關分類: Large language model

立即出貨 (庫存=1)

買這商品的人也買了...

~~$774~~ $735

UiPath RPA 開發：入門、實戰與進階
$358

ITIL 4 與 DevOps 服務管理認證指南, 2/e
$458

PyTorch 深度學習簡明實戰
$407

Redis 數據庫從入門到實踐
~~$774~~ $735

利用 FastAPI 構建 Python 微服務
~~$768~~ $729

集成學習實戰
~~$359~~ $341

短線量化交易實戰技巧
~~$479~~ $455

LangChain 大模型應用開發
~~$680~~ $578

讓 AI 好好說話！從頭打造 LLM (大型語言模型) 實戰秘笈
$504

AI Agent 開發與應用：基於大模型的智能體構建
~~$1,080~~ $853

了解物理世界的 AI - 搶先了解 ROS2 智慧機器人 OS 開發
~~$599~~ $569

AI Agent 開發實戰：MCP + A2A + LangGraph 驅動的智能體全流程開發
~~$654~~ $621

圖解 AI Agent：智能體從原理到實踐
~~$648~~ $615

AI Agent 開發全書：原理、框架與企業落地
~~$1,250~~ $987

LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)
$358

智能體開發技術 (Python + FastAPI版)
~~$880~~ $695

RAG 再深入研究 - 向量資料庫智慧檢索及應用
$768

裸 K線交易法 — 價格行為 (PRICEACTION) 全面詳解 (新二版)
~~$539~~ $512

LangGraph 開發從原理到實踐
~~$790~~ $624

大型語言模型應用實戰：從 Prompt Engineering 到 Agentic RAG 與 MCP
~~$768~~ $729

剪輯變現：新手小白也能接單賺錢的剪輯變現全攻略
~~$954~~ $906

圖解大模型底層邏輯：大模型是怎麼跑起來的
~~$1,280~~ $1,011

精通機器學習｜使用 Scikit-Learn 與 PyTorch (Hands-On Machine Learning with Scikit-Learn and Pytorch: Concepts, Tools, and Techniques to Build Intelligent Systems)
~~$594~~ $564

LangChain 大模型應用開發從入門到實踐
~~$980~~ $774

AI Agent 最強工具－ LangGraph 建構最新代理人系統

商品描述

本書通過豐富的實戰案例，全面介紹多模態大模型的核心原理、數據處理方法與模型優化策略。全書共9章，結構層層遞進。第1章和第2章介紹了多模態大模型的基礎理論與數據處理技術，包括多模態數據的特征、預處理方法與增強策略。第3章和第4章詳細闡述了多模態表示學習與嵌入方法，涵蓋數據融合、模態對齊、聯合學習等關鍵技術。第5章全面展示了多模態模型的訓練與微調策略，如註意力機制、對比學習與混合精度訓練等優化方法。第6章深入探討了OpenAI的多模態模型CLIP，幫助讀者掌握訓練、增強和微調CLIP的知識。第7章介紹了基於CPM中英雙語多模態大模型的文生圖系統實現過程。第8章和第9章分別介紹了DeepSeek多模態大模型和基於Latent Diffusion Transformer的文生視頻系統的構建過程。
本書適合人工智能工程師、深度學習研究者、AI產品開發人員、高校師生以及希望轉型AI領域的技術人員閱讀。無論是希望夯實多模態模型基礎，還是尋找前沿實戰案例，本書都將為您提供全面的參考與指導。

目錄大綱

第1章多模態大模型開發基礎   001
1.1 大模型介紹   002
1.1.1 什麼是大模型   002
1.1.2 大模型技術的發展   002
1.1.3 大模型的作用   003
1.2 多模態技術簡介   004
1.2.1 什麼是多模態   004
1.2.2 多模態技術的發展   004
1.2.3 多模態技術的應用場景   005
1.3 多模態數據類型   006
1.3.1 常見的多模態類型   007
1.3.2 圖像數據   007
1.3.3 文本數據   008
1.3.4 音頻數據   008
1.3.5 視頻數據   009
1.4 多模態技術的基本原理   009
1.4.1 數據融合與對齊   009
1.4.2 多模態表示學習   010
1.4.3 多模態推理   011

第2章多模態數據處理   012
2.1 文本預處理   013
2.1.1 數據清洗和處理   013
2.1.2 數據轉換與整合   020
2.1.3 數據標準化與歸一化   023
2.2 圖像預處理   029
2.2.1 歸一化   029
2.2.2 去噪   031
2.2.3 圖像裁剪和縮放   036
2.3 音頻預處理   037
2.3.1 采樣率調整   037
2.3.2 音頻分幀   039
2.3.3 加窗   040
2.3.4 傅裏葉變換   042
2.3.5 聲譜圖   044
2.4 視頻預處理   045
2.4.1 視頻預處理技術   045
2.4.2 對指定視頻實現預處理   046
2.5 數據增強   047
2.5.1 文本數據增強   047
2.5.2 圖像數據增強   049
2.5.3 音頻數據增強   051

第3章多模態表示學習   054
3.1 多模態表示學習方法介紹    055
3.2 表示融合   056
3.2.1 表示融合方法介紹   056
3.2.2 實戰演練：實現一個多模態情感識別模型   057
3.3 聯合學習   061
3.3.1 實現聯合學習的流程   062
3.3.2 實戰演練：實現多模態模型的聯合學習   062
3.4 表示對齊   065
3.4.1 表示對齊方法   066
3.4.2 實戰演練：實現多模態模型之間的表示對齊   066
3.5 模態間的關系建模   070
3.5.1 實現模態間關系建模的方法   070
3.5.2 實戰演練：在多模態場景中實現模態間關系建模   071

第4章多模態嵌入表示   074
4.1 多模態嵌入介紹   075
4.2 圖像嵌入   076
4.2.1 圖像嵌入基礎   076
4.2.2 圖像特征提取   077
4.2.3 模態對齊   081
4.2.4 CLIP   088
4.2.5 DALL-E   090
4.3 文本嵌入   092
4.3.1 文本嵌入方法   092
4.3.2 實戰演練：使用BERT實現文本嵌入   093
4.3.3 實戰演練：基於CLIP的文本嵌入   096
4.4 音頻嵌入   099
4.4.1 音頻特征提取   099
4.4.2 常用的音頻嵌入模型   101

第5章訓練多模態模型   102
5.1 多模態模型的訓練過程   103
5.2 常用訓練策略實戰演練   104
5.2.1 預訓練與微調   104
5.2.2 多任務學習   107
5.2.3 自註意力機制   110
5.2.4 對比學習   111
5.2.5 數據增強   113
5.2.6 遷移學習   114
5.2.7 正則化技術   116
5.2.8 動態學習率調整   118
5.2.9 混合精度訓練   119

第6章 OpenAI的多模態模型：CLIP   122
6.1 CLIP介紹   123
6.1.1 CLIP的架構   123
6.1.2 CLIP的優點和缺點   123
6.2 CLIP的增強訓練的準備工作   123
6.2.1 功能模塊介紹   123
6.2.2 定義數據集   123
6.3 模型的構建、訓練與評估   123
6.3.1 創建模型   123
6.3.2 分詞器   123
6.3.3 損失函數   123
6.3.4 訓練模型   123
6.3.5 評估模型   123
6.3.6 文本重寫   123

第7章基於CPM中英雙語多模態大模型的文生圖系統   124
7.1 項目介紹   125
7.2 項目架構   125
7.3 圖像處理和增強   126
7.4 文本處理   140
7.5 實現模型   144
7.5.1 模型組件   145
7.5.2 圖像和張量處理工具   161
7.5.3 定義和配置BEiT3模型   162
7.5.4 CPMBeeTorch模型   164
7.5.5 基於Stable Diffusion的圖像生成模型   169
7.5.6 多模態模型   173
7.6 文本生成   176
7.6.1 輔助函數   176
7.6.2 生成文本響應   178
7.7 圖文交互   190
7.8 繪畫模型   192
7.9 模型微調   196
7.9.1 工具類   196
7.9.2 處理和構建數據集   201
7.9.3 訓練初始化   209
7.9.4 模型配置和訓練   211
7.9.5 保存配置文件   217
7.10 調試運行   217
7.10.1 文生圖程序   218
7.10.2 聊天程序   219

第8章 DeepSeek多模態大模型   221
8.1 DeepSeek多模態大模型簡介   222
8.2 整體架構設計   222
8.2.1 模型定位與技術目標   222
8.2.2 核心模塊組成   222
8.2.3 設計哲學與核心考量   222
8.3 Janus項目源碼分析   222
8.3.1 對話管理   222
8.3.2 數據加載   222
8.3.3 構建多模態模型   222
8.3.4 JanusFlow模型架構   222
8.3.5 模型推理   222
8.3.6 準備DeepSeek多模態大模型API   222
8.3.7 在線測試DeepSeek多模態大模型   222

第9章基於Latent Diffusion Transformer的文生視頻系統   223
9.1 項目介紹   224
9.1.1 背景介紹   224
9.1.2 主要貢獻   224
9.2 項目架構   225
9.3 系統配置   226
9.3.1 FaceForensics數據集配置   226
9.3.2 配置Sky Timelapse數據集   228
9.3.3 配置其他數據集   229
9.4 數據集處理   230
9.4.1 處理FaceForensics數據集中的視頻數據   230
9.4.2 加載並處理SkyImages數據集   233
9.4.3 加載並處理Taichi數據集   235
9.4.4 加載並處理UCF101數據集   237
9.4.5 視頻數據的預處理和增強   242
9.5 擴散模型   253
9.5.1 擴散模型的輔助工具   253
9.5.2 高層擴散模型的核心邏輯   254
9.6 實現模型   259
9.6.1 文本嵌入模型   259
9.6.2 多模態視頻處理模型   261
9.6.3 圖像生成模型   272
9.6.4 二維Transformer模型   273
9.7 訓練模型   276
9.7.1 基本訓練   277
9.7.2 視頻圖像聯合訓練   281
9.7.3 PyTorch Lightning訓練腳本   282
9.8 模型性能評估   282
9.8.1 評估工具   283
9.8.2 FVD評估   287
9.8.3 評估生成視頻的質量   288
9.8.4 性能評估   289
9.9 采樣   292
9.9.1 基於Latte模型的采樣   292
9.9.2 基於分布式數據並行生成視頻   294
9.9.3 文本生成視頻   297

多模態大模型技術及應用

王卓

買這商品的人也買了...

商品描述

目錄大綱

類似商品