多模態大模型：技術原理與實戰

彭勇等

出版商: 電子工業
出版日期: 2023-11-01
售價: $600
貴賓價: 9.5 折 $570
語言: 簡體中文
頁數: 300
ISBN: 7121465620
ISBN-13: 9787121465628
相關分類: 人工智慧、大數據 Big-data、Machine Learning

立即出貨

買這商品的人也買了...

$250

JMeter 性能測試實戰, 2/e (Performance Testing with Jmeter, 2/e)
~~$520~~ $406

設計重構：25個管理技術債的技巧消除軟體設計臭味 (Refactoring for Software Design Smells: Managing Technical Debt)
~~$750~~ $593

集成式學習：Python 實踐！整合全部技術，打造最強模型 (Hands-On Ensemble Learning with Python: Build highly optimized ensemble machine learning models using scikit-learn and Keras)
$454

時間序列預測 : 基於機器學習和 Python 實現 (Machine Learning for Time Series Forecasting with Python)
$352

控制之美 (捲1) — 控制理論從傳遞函數到狀態空間
~~$880~~ $695

Google 的軟體工程之道｜從程式設計經驗中吸取教訓 (Software Engineering at Google)
~~$620~~ $484

NestJS 基礎必學實務指南：使用強大且易擴展的 Node.js 框架打造網頁應用程式 (iThome鐵人賽系列書)
~~$479~~ $455

擴散模型從原理到實戰
$407

AIGC 自動化編程：基於 ChatGPT 和 GitHub Copilot
~~$505~~ $475

多模態深度學習技術基礎
~~$680~~ $537

可觀測性工程｜達成卓越營運 (Observability Engineering: Achieving Production Excellence)
~~$539~~ $512

自然語言處理與醫療文本的知識抽取
~~$720~~ $569

GPT 就是這麼來的 - 最新自然語言處理技術詳解
~~$1,200~~ $948

史上最強 Python 入門邁向頂尖高手之路王者歸來, 3/e (全彩印刷)
~~$654~~ $621

大規模語言模型：從理論到實踐
~~$528~~ $502

ChatGPT 風暴：大語言模型、生成式AI 與 AIGC 顛覆創新範式
~~$680~~ $537

ChatGPT 4 Turbo 萬用手冊 2024 春季號：提示工程、超強外掛、My GPTs、OpenAI API、Midjourney、Copilot、Gemini、Claude 2
~~$599~~ $569

YOLO 目標檢測
~~$820~~ $648

ChatGPT 開發手冊 Turbo×Vision 進化版—用 OpenAI Chat/Assistants API‧Function calling 設計 GPTs action‧LINE/Discord bot‧股市分析/自動助理
~~$599~~ $569

基於 GPT-3、ChatGPT、GPT-4 等 Transformer 架構的自然語言處理
~~$594~~ $564

LangChain 入門指南：構建高可復用、可擴展的 LLM 應用程序
~~$474~~ $450

Llama 大模型實踐指南
~~$1,280~~ $1,011

AI 時代 Math 元年 : 用 Python 全精通矩陣及線性代數
~~$680~~ $537

GPT5 新時代 - 多模態深度學習精實操練
~~$980~~ $774

新範式來臨 - 用 PyTorch 了解 LLM 開發微調 ChatGLM 全過程

商品描述

本書詳細介紹了大語言模型和多模態大模型的發展歷史、技術原理和亮點、主要的開源框架、配套工具、部署細則和實戰案例。為了讓讀者更好地進行大模型的應用實戰，本書還詳細介紹了使用大模型為商業賦能的3個應用案例。期望本書能夠幫助讀者打開通往大模型尤其是多模態大模型的學習、實戰和商業成功之路。

目錄大綱

第1章 OpenAI一鳴驚人帶來的啟示 1
1.1 OpenAI的成長並非一帆風順 2
1.2 OpenAI的成功因素 5
1.3 OpenAI特殊的股權設計帶來的啟示 7
1.4 思考 11
第2章自然語言處理的發展歷程 13
2.1 自然語言處理的發展史 14
2.1.1 背景介紹 14
2.1.2 自然語言處理發展的7個階段 15
2.2 從BERT模型到ChatGPT 30
2.3 BERT模型到底解決了哪些問題 31
2.4 BERT模型誕生之後行業持續摸索 38
2.5 ChatGPT的誕生 41
2.5.1 InstructGPT模型的構建流程 42
2.5.2 ChatGPT和InstructGPT的差異 44
2.5.3 ChatGPT和BERT模型在公開數據集上的測試 45
2.5.4 高質量的數據標註 46
2.6 思考 48
第3章讀懂ChatGPT的核心技術 50
3.1 基於Transformer的預訓練語言模型 50
3.2 提示學習與指令微調 55
3.3 基於人工反饋的強化學習 59
3.4 思維鏈方法 62
3.5 集成學習 64
3.6 思考 67
第4章看清GPT的進化史和創新點 68
4.1 GPT技術的發展歷程 68
4.1.1 GPT-1技術的發展歷程 68
4.1.2 GPT-2技術的發展歷程 72
4.1.3 GPT-3技術的發展歷程 73
4.2 GPT的創新點總結 75
4.3 思考 77
第5章大模型+多模態產生的“化學反應” 78
5.1 多模態模型的發展歷史 78
5.2 單模態學習、多模態學習和跨模態學習的區別 82
5.3 多模態大模型發展的重大里程碑 85
5.4 大模型+多模態的3種實現方法 94
5.5 多模態大模型的效果評估 99
5.6 思考 102
第6章多模態大模型的核心技術 103
6.1 文本多模態技術 104
6.1.1 基於模板的圖像描述方法 105
6.1.2 基於檢索的圖像描述方法 105
6.1.3 基於深度學習的圖像描述方法 105
6.2 圖像多模態技術 106
6.2.1 基於對抗網絡的文本生成圖像方法 107
6.2.2 基於VAE的文本生成圖像方法 109
6.2.3 基於擴散模型的文本生成圖像方法 110

6.3 語音多模態技術 111
6.3.1 基於非深度學習的文本生成語音技術 111
6.3.2 基於深度學習的文本生成語音技術 113
6.4 視頻多模態技術 116
6.4.1 非擴散模型的文本生成視頻技術 117
6.4.2 基於擴散模型的文本生成視頻技術 118
6.5 跨模態多重組合技術 119
6.6 多模態大模型高效的訓練方法 120
6.7 GPT-4多模態大模型核心技術介紹 121
6.8 多模態技術的發展趨勢 122
第7章國內外多模態大模型對比 124
7.1 國內多模態大模型介紹 125
7.1.1 LLaMA-Adapter V2 125
7.1.2 VisualGLM-6B 128
7.1.3 mPLUG-Owl 129
7.2 國外多模態大模型介紹 131
7.2.1 Visual ChatGPT 131
7.2.2 InstructBLIP 132
7.2.3 MiniGPT-4 134
7.3 多模態大模型評測數據集 135
7.3.1 國內評測數據集 136
7.3.2 國外評測數據集 136
7.4 多模態大模型的評測標準 137
7.4.1 國內評測標準 137
7.4.2 國外評測標準 138
7.5 多模態大模型對比 139
7.5.1 感知能力評測 139
7.5.2 認知能力評測 141
7.6 思考 145

第8章中小公司的大模型構建之路 146
8.1 微調技術介紹 147
8.1.1 LoRA技術 148
8.1.2 AdaLoRA技術 149
8.1.3 QLoRA技術 149
8.1.4 微調加DeepSpeed的ZeRO-3 150
8.2 模型壓縮技術介紹 151
8.2.1 剪枝 151
8.2.2 知識蒸餾 153
8.2.3 量化壓縮 154
8.3 微調實戰 155
8.3.1 部分參數微調實戰 156
8.3.2 全參數微調實戰 157
8.4 模型壓縮實戰 159
8.4.1 8位量化壓縮實戰 159
8.4.2 4位量化壓縮實戰 160
8.5 思考 162
第9章從0到1部署多模態大模型 163
9.1 部署環境準備 163
9.2 部署流程 165
9.3 使用Flask框架進行API開發 167
9.4 使用Gradio框架進行Web頁面開發 171
9.5 其他部署方法介紹 176
9.6 部署過程中常見的問題總結 179
第10章多模態大模型的主要應用場景 183
10.1 多模態大模型的應用圖譜 183
10.1.1 多模態大模型的30個基礎應用 183
10.1.2 多模態大模型在六大領域中的應用 189
10.2 多模態大模型在金融領域中的應用 193
10.2.1 語音質檢 194
10.2.2 智能顧問 196
10.3 多模態大模型在出行與物流領域中的應用 201
10.4 多模態大模型在電商領域中的應用 203
10.4.1 智能客服 203
10.4.2 智能試穿 205
10.5 多模態大模型在工業設計與生產領域中的應用 207
10.6 多模態大模型在醫療健康領域中的應用 210
10.7 多模態大模型在教育培訓領域的應用 215
10.8 思考 216
第11章用多模態大模型打造AI助理實戰 218
11.1 應用背景 218
11.2 方法論介紹 219
11.2.1 思維鏈解決復雜的推理問題 219
11.2.2 思維樹進一步提升推理能力 220
11.2.3 採用插值法解決長文本輸入問題 220
11.3 工具和算法框架介紹 222
11.3.1 使用的工具 222
11.3.2 使用的算法框架 222
11.4 優化邏輯介紹 224
11.4.1 如何提高多輪對話能力 225
11.4.2 如何提高角色扮演能力 225
11.4.3 如何提高長文本閱讀能力 226
11.5 多模態大模型的部署 227
11.6 多模態大模型的性能評估 228
11.6.1 綜合性能評估 228
11.6.2 長文本閱讀示例 229
11.6.3 多輪對話示例 230
11.6.4 角色扮演示例 233
11.6.5 LangChain框架賦能Ziya在限定域內的問答示例 234
11.7 思考 235
第12章多模態大模型在情緒識別領域的應用 236
12.1 應用背景和待解決的問題 236
12.2 方法論介紹 238
12.3 工具和算法框架介紹 243
12.3.1 算法的輸入和輸出 243
12.3.2 算法框架的整體構建流程 244
12.3.3 文本預訓練任務 245
12.3.4 圖像預訓練任務 247
12.3.5 多模態預訓練任務 248
12.3.6 算法的求解 249
12.3.7 算法的應用 250
12.4 優化邏輯介紹 251
12.5 部署流程 253
12.6 效果評測 254
12.6.1 評測數據集 254
12.6.2 評測指標 257
12.6.3 評測結果 257
12.7 思考 259
第13章大模型在軟件研發領域的實戰案例與前沿探索 261
13.1 LLM在軟件研發過程中的單點提效 262
13.1.1 基於GitHub Copilot的代碼片段智能生成 262
13.1.2 基於Copilot X實現增強的代碼片段智能生成 266
13.1.3 基於GitHub Copilot X實現對選中代碼的理解與解讀 268
13.1.4 基於GitHub Copilot X的Pull Requests提效 269
13.1.5 基於LLM實現的“代碼刷” 270
13.1.6 使用Copilot Voice實現語音驅動的代碼開發 272
13.1.7 使用Copilot CLI實現命令行的自動生成 274
13.1.8 使用TestPilot實現單元測試用例的自動生成 275
13.1.9 更多的應用 277
13.2 代碼LLM為軟件研發帶來的機遇與挑戰 277
13.2.1 對於軟件研發來說，什麽變了 278
13.2.2 對於軟件研發來說，什麽沒有變 278
13.3 在LLM時代，對軟件研發的更多思考 283
13.3.1 思考1：替代的是“碼農”，共生的是工程師 283
13.3.2 思考2：有利於控制研發團隊規模，保持小團隊的
效率優勢 284
13.3.3 思考3：不可避免的“暗知識” 284
13.3.4 思考4：Prompt即代碼，代碼不再是代碼 285
13.3.5 思考5：Prompt to Executable軟件研發範式的可能性 286
13.4 思考 286

多模態大模型：技術原理與實戰

彭勇 等

買這商品的人也買了...

商品描述

目錄大綱

類似商品

彭勇等