多模態人工智能：大模型核心原理與關鍵技術

王金橋

出版商: 電子工業
出版日期: 2024-08-01
售價: $600
貴賓價: 9.5 折 $570
語言: 簡體中文
頁數: 241
裝訂: 平裝
ISBN: 712148319X
ISBN-13: 9787121483196
相關分類: Large language model

立即出貨 (庫存 < 4)

買這商品的人也買了...

$414

基於 ArcGIS 的 Python 編程秘笈, 2/e (Programming ArcGIS with Python Cookbook, 2/e)
$402

奇妙量子世界人人都能看懂的量子科學漫畫
~~$520~~ $410

輕鬆學量子程式設計｜從量子位元到量子演算法
~~$420~~ $378

量子科技入門
$606

ArcGIS API for JavaScript 開發
$469

多模態深度學習技術基礎
~~$980~~ $774

AI + IoT 佈建邊緣運算 - 電腦視覺業界專案原理及實作
~~$680~~ $537

GPT5 新時代 - 多模態深度學習精實操練
~~$800~~ $632

新世代 AI 範式 - 多模態+大模型實作精解
~~$774~~ $735

AIGC 原理與實務：零基礎學大語言模型、擴散模型與多模態模型
~~$650~~ $507

LLM 大型語言模型的絕世祕笈：27路獨步劍法，帶你闖蕩生成式 AI 的五湖四海（iThome鐵人賽系列書）
$504

動手學 PyTorch 建模與應用：從深度學習到大模型
~~$650~~ $513

「演算法×數學」全彩圖解學習全指南：從基礎開始，一次學會24種必學演算法與背後的關鍵數學知識及應用
~~$594~~ $564

深度神經網絡高效計算：大模型輕量化原理與關鍵技術
~~$680~~ $340

營養師不開菜單後的 Next.js 全端轉職攻略：從專案規劃、畫面設計、資安到 SEO，挑戰一人 Side Project (iThome鐵人賽系列書)
$504

大型語言模型實戰指南：應用實踐與場景落地
$359

大模型應用開發：RAG 入門與實戰
$510

事理圖譜概念與技術
~~$880~~ $695

多 Agent 智慧體 - LangChain 大型 ReAct 系統開發
$453

LangChain 大模型 AI 應用開發實踐
$606

ROS 2 智能機器人開發實踐
$311

ChatGPT 的基本原理與核心算法
$505

多模態大模型：從理論到實踐
$559

大模型知識增強：概念、方法與技術
~~$980~~ $774

LLM 開源大物 - DeepSeek 深入技術多模態開發

商品描述

本書是一本人工智能通識課程教材，它有系統地介紹了多模態人工智能的基礎理論、關鍵技術及應用場景，
深入分析了多模態學習、多模態訓練、多模態大模型、多模態理解、多模態檢索、多模態生成、
多模態推理、多模態互動、多模態模型安全與可信等核心技術，旨在為讀者提供一個清晰、
全面的多模態人工智能的知識框架，從而幫助讀者更好地理解和應用多模態人工智能技術。
本書的出版有助於培養人工智能領域的科技人才，推動新質生產力發展，為建立科技強國提供支援。
本書適合高等院校電腦科學與技術和人工智能等專業的本科生、
研究生閱讀，也可供對多模態人工智能技術有興趣的工程師和研究人員參考。

作者簡介

王金橋中國科學院自動化研究所副總工程師，紫東太初大模型研究中心常務副主任，研究員，博導，武漢人工智能研究院院長，中國科學院大學人工智能學院崗位教授，多模態人工智能產業聯盟秘書長，主要從事多模態大模型、視頻分析與檢索、大規模目標識別等方面的研究。在國際權威期刊和會議發表論文300餘篇，其中國際期刊50餘篇，國際會議220餘篇。參與國家、行業、團體標準制16項，申請發明專利50餘項，獲得15項國際算法競賽冠軍；榮獲北京市科技進步一等獎、北京市自然科學二等獎、吳文俊人工智能科技進步獎、華為天才少年桃李獎、中國發明創新銀獎；獲得新時代中國經濟創新人物、中科院科苑名匠團隊、武漢楷模、北京市高聚領軍人才、廣州市創新團隊領軍人才、山東省泰山領軍人才和光谷3551領軍人才等榮譽稱號。

目錄大綱

第1章緒論
1.1 引言
1.2 基本術語
1.2.1 傳感器
1.2.2 模態
1.2.3 多模態
1.2.4 演算法模型
1.2.5 表徵學習
1.2.6 語義理解
1.2.7 遷移學習
1.2.8 內容生成
1.2.9 模態融合
1.2.10 模態對齊
1.2.11 多模態學習
1.3 發展歷程
1.4 應用現狀
1.5 小結
第2章基礎知識
2.1 傳統機器學習
2.1.1 模型評估與選擇
2.1.2 線性模型
2.1.3 分類
2.1.4 回歸
2.2 深度學習
2.2.1 捲積神經網絡
2.2.2 循環神經網絡
2.2.3 Transformer
2.3 最佳化演算法
2.3.1 梯度下降演算法
2.3.2 反向傳播
2.4 應用領域
2.4.1 電腦視覺
2.4.2 自然語言處理
2.4.3 語音識別
2.5 小結
第3章多模態學習
3.1 模態表示
3.1.1 文字模態表示
3.1.2 視覺模態表示
3.1.3 聲音模態表示
3.1.4 其他模態表示
3.1.5 多模態聯合表示
3.1.6 多模態協同表示
3.2 多模態融合
3.2.1 資料級融合
3.2.2 特徵級融合
3.2.3 目標級融合
3.2.4 混合式融合
3.3 跨模態對齊
3.3.1 明確對齊：無監督對齊和有監督對齊
3.3.2 隱式對齊：註意力對齊和語意對齊
3.4 多模態協同學習
3.4.1 基於平行資料的協同學習
3.4.2 基於非平行資料的協同學習
3.4.3 基於混合平行資料的協同學習
3.5 小結
第4章多模態訓練
4.1 有監督訓練
4.1.1 視覺監督訓練
4.1.2 文本監督訓練
4.1.3 多模態監督訓練
4.2 自監督訓練
4.2.1 基於對比學習的自我監督訓練
4.2.2 基於遮罩學習的自我監督訓練
4.3 混合監督訓練
4.3.1 有監督與自監督的混合監督訓練
4.3.2 半監督混合監督訓練
4.4 小結
第5章多模態大模型
5.1 基礎大模型
5.1.1 語言大模型
5.1.2 視覺大模型
5.1.3 語音大模型
5.1.4 多模態基礎大模型
5.2 大語言模型推理方法
5.2.1 提示學習
5.2.2 上下文學習
5.2.3 思維鏈
5.3 模型微調
5.3.1 LoRA
5.3.2 人類回饋強化學習
5.4 分佈式訓練
5.4.1 DeepSpeed
5.4.2 Megatron-LM
5.5 小結
第6章多模態理解
6.1 圖像描述
6.1.1 描述方法
6.1.2 評價指標
6.2 影片描述
6.2.1 影片定位
6.2.2 影片描述
6.2.3 影片摘要生成
6.2.4 評價指標
6.3 視覺問答
6.3.1 問題定義
6.3.2 問答方法
6.3.3 評價指標
6.4 小結
第7章多模態檢索
7.1 資料檢索
7.1.1 單模態資料與檢索
7.1.2 多模態資料與檢索
7.2 跨模態檢索
7.2.1 檢索方法
7.2.2 評價指標
7.3 交互式檢索
7.4 小結
第8章多模態生成
8.1 影像生成
8.1.1 問題定義
8.1.2 生成方法
8.1.3 評價指標
8.2 視訊生成
8.2.1 問題定義
8.2.2 生成方法
8.2.3 評價指標
8.3 語音生成
8.3.1 問題定義
8.3.2 合成方法
8.3.3 前端處理
8.3.4 後端模型
8.3.5 評價標準
8.4 小結
第9章多模態推理
9.1 知識圖譜推理
9.1.1 基於規則學習
9.1.2 基於路徑排序
9.1.3 基於表示學習
9.1.4 基於神經網絡學習
9.2 多模態推理
9.2.1 視覺問答
9.2.2 視覺常識推理
9.2.3 視覺語言導航
9.3 小結
第10章多模態交互
10.1 穿戴式交互
10.1.1 交互方式
10.1.2 相關技術
10.1.3 智慧型穿戴設備
10.2 人機對話交互
10.2.1 語音識別
10.2.2 情感識別
10.2.3 語音合成
10.2.4 對話系統
10.3 聲場感知交互
10.3.1 動作識別
10.3.2 聲源定位
10.3.3 副語音訊息互動增強
10.3.4 音訊感知與識別
10.4 混合實境實物交互
10.4.1 靜態被動力觸覺
10.4.2 相遇型被動力觸覺
10.5 小結
第11章多模態模型安全可信
11.1 模型的可解釋性
11.1.1 遷移學習
11.1.2 反向傳播與顯著性圖
11.1.3 特徵反演
11.1.4 敏感度分析
11.1.5 註意力機制
11.1.6 沙普利疊加解釋
11.2 人工智能倫理規範.
11.2.1 標準認定
11.2.2 科技倫理治理
11.2.3 行業自律
11.3 小結.
第12章總結與展望
12.1 世界模型
12.2 情感計算
12.3 類腦智能
12.4 博弈智能
12.5 小結

多模態人工智能：大模型核心原理與關鍵技術

王金橋

買這商品的人也買了...

商品描述

作者簡介

目錄大綱

類似商品