多模態大模型：算法、應用與微調

劉兆峰

出版商: 機械工業
出版日期: 2024-07-01
定價: $714
售價: 8.5 折 $606
語言: 簡體中文
頁數: 404
裝訂: 平裝
ISBN: 7111754883
ISBN-13: 9787111754886
相關分類: GAN 生成對抗網絡、Large language model、LangChain

立即出貨

買這商品的人也買了...

~~$750~~ $375

敏捷大師精選 (Best Agile Articles of 2018)
$504

多模態深度學習技術基礎
$555

大規模語言模型：從理論到實踐
$402

Diffusion AI 繪圖模型構造與訓練實戰
$559

大語言模型：基礎與前沿
$453

ChatGLM3 大模型本地化部署、應用開發與微調
~~$800~~ $632

新世代 AI 範式 - 多模態+大模型實作精解
$445

OpenAI API 接口應用實戰
~~$880~~ $695

LLM 走進你的電腦 - 自己動手開發大型語言模型應用
$374

快速部署大模型：LLM 策略與實踐 (基於 ChatGPT 等大語言模型)
~~$774~~ $735

AIGC 原理與實務：零基礎學大語言模型、擴散模型與多模態模型
~~$650~~ $507

LLM 大型語言模型的絕世祕笈：27路獨步劍法，帶你闖蕩生成式 AI 的五湖四海（iThome鐵人賽系列書）
~~$650~~ $325

機器學習與人工智慧深度問答集：從基礎到專業，提升 AI 知識力的 30道深度思考題 (Machine Learning Q and AI: 30 Essential Questions and Answers on Machine Learning and AI)
~~$720~~ $568

自己開發 ChatGPT - LLM 從頭開始動手實作
~~$690~~ $545

輕量又漂亮的 Python Web 框架 - Streamlit AI 時代非學不可
~~$650~~ $513

LLM 的大開源時代 - Llama 模型精讀實戰
~~$880~~ $695

多 Agent 智慧體 - LangChain 大型 ReAct 系統開發
$407

生成式 AI 實戰基於 Transformer、Stable Diffusion、LangChain 和 AI Agent
$708

基於大模型的 RAG 應用開發與優化 — 構建企業級 LLM 應用
$407

揭秘大模型：從原理到實戰
$504

大模型實戰：微調、優化與私有化部署
~~$680~~ $537

讓 AI 好好說話！從頭打造 LLM (大型語言模型) 實戰秘笈
$305

Python預訓練視覺和大語言模型
~~$1,080~~ $853

AI 時代 Math 元年 - 用 Python 全精通機器學習 (黑白印刷)
~~$980~~ $774

LLM 竟然這麼靠近 - 使用 llama 模型建立大模型本機系統

LLM 大語言模型｜2書75折詳見活動內容 »

78折
~~$690~~ $538

零基礎玩轉 LLM 應用全攻略：Python × No-Code 實作 AI 開發超簡單（iThome鐵人賽系列書）
79折
~~$790~~ $624

大型語言模型應用實戰：從 Prompt Engineering 到 Agentic RAG 與 MCP
78折
~~$500~~ $390

大模型時代：從 ChatGPT 一枝獨秀到全面開戰的 AI 賽局
79折
~~$980~~ $774

業界實戰親授 - 大型語言模型微調、最佳化、佈署一次到位
79折
~~$880~~ $695

深度學習最佳入門與專題實戰：自然語言處理、大型語言模型與強化學習篇
79折
~~$780~~ $616

AIGC 大型語言模型 - 個人應用到企業實戰立刻上手
79折
~~$790~~ $624

讓 LLM 飛起來的工具使用 - AI Agent MCP 協議開發、標準、應用
79折
~~$880~~ $695

AI Agent 手刻首選 - 使用 LangChain 親手實作 LLM 大型商業專案
79折
~~$620~~ $489

LLMOps 打造穩定運行的大型語言模型系統 (LLMOps: Managing Large Language Models in Production)
79折
~~$880~~ $695

實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式
7折
~~$650~~ $455

AI 程式設計、深度學習與 LLM 入門到精通：PyTorch × GPT × Transformer × LLaMA 實作指南（iThome鐵人賽系列書）
79折
~~$1,250~~ $987

LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)
79折
~~$760~~ $600

AI Agent 智能工作流：設計與自動化全實戰
79折
~~$880~~ $695

不再是 ChatBot - 最新 AI Agent 代理建構
79折
~~$680~~ $537

最新 AI 開發範式 - Agent 多重智慧體自動產生應用
79折
~~$680~~ $537

LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具
79折
~~$980~~ $774

LLM 語意理解與生成技術完全開發 (Hands-On Large Language Models)
79折
~~$980~~ $774

LLM × 網路爬蟲終極實戰：n8n 串接資料爬取 × Qdrant × RAG 打造本機 AI Agent
79折
~~$780~~ $616

Node.js 與 LLM 原理與實務：AI 應用程式開發
79折
~~$980~~ $774

知道你的下一筆訂單 - 使用 LLM
79折
~~$980~~ $774

更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練
79折
~~$750~~ $592

AI Agent 自動化流程超 Easy -- 不寫程式 No Code 聰明完成樣樣事
79折
~~$750~~ $592

Ollama 本地 AI 全方位攻略：命令列功能、五大主題測試、RAG、Vibe Coding、MCP，一本搞定所有實戰應用
VIP 95折
~~$588~~ $558

AI傳媒學：大模型助力傳媒行業應用與創新
7折
~~$680~~ $476

深談 AWS 雲端上的 AI Agent：系統化學習 AWS-AI 證照，協助企業管理 AI Agent

商品描述

本書詳盡地涵蓋了多模態大模型的演算法原理與應用實戰，
提供了豐富的微調技術細節和實際案例，適合對多模態大模型有興趣的技術人員深入學習及應用。
本書分為兩篇：演算法原理篇詳細介紹了的深度學習模型，包括Transformer、GPT系列、深度生成模型，
從基本架構、訓練方法到特定應用，包括但不限於Seq2Seq結構、位置編碼、註意力機制、殘差連結、
變分自編碼器、GAN、ViT、CLIP、Stable Diffusion、各模型訓練實務的知識點。
此外，探討了預訓練模型的湧現能力、模型參數和通訊資料量的估算，
以及分佈式訓練的各種技術，如資料並行、模型並行和混合精度訓練等。
應用實戰篇聚焦於深度學習模型的實際應用，特別是文字和圖像生成，以及程式碼生成的應用實戰。
透過具體實戰項目，如利用Stable Diffusion進行影像生成和Code Llama進行程式碼生成，
提供了微調技術的詳細細節，介紹了LangChain等大型模型應用框架。

作者簡介

劉兆峰中國電信多模態算法工程師，基於多模態大模型提升長尾業務能力。天津科技大學人工智能專業碩士研究生。曾在京東科技擔任算法工程師，從事京東白條申請評分卡開發。後加入創業公司，從事大規模預訓練語言模型的分佈式微調和AIGC相關衍生產品的系統開發，對LLM的訓練和推理有深厚的理論基礎和實戰經驗。現主要研究方向為多模態大模型與Aqent以及AGI系統研究，聚焦於多模態大模型的行業場景落地。工作期間技術成果豐碩，發表多篇論文，有多個軟件著作權。

目錄大綱

目錄
前言
篇　演算法原理
第1章　Transformer模型　2
1.1　Seq2Seq結構　2
1.1.1　分詞器　2
1.1.2　編碼器–解碼器結構　6
1.1.3　註意力機制　9
1.1.4　實戰：日期轉換　13
1.2　Transformer模型介紹　18
1.2.1　位置編碼　18
1.2.2　模型架構　24
1.2.3　標準化與殘差連結　32
1.2.4　線性層和softmax層　36
1.2.5　損失函數　36
1.2.6　實戰：日期轉換　37
1.2.7　小結　45
1.3　ViT模型介紹　46
1.3.1　註意力機制在影像上的應用　47
1.3.2　ViT模型架構　48
1.3.3　大數據預訓練　50
1.3.4　ViT模型訓練實務　52
1.4　本章總結　54
第2章　GPT系列模型　55
2.1　GPT-1　55
2.1.1　語言模型　56
2.1.2　訓練框架　56
2.1.3　模型效果分析　62
2.2　GPT-2　63
2.2.1　模型架構分析　64
2.2.2　構造訓練資料集　65
2.2.3　模型效果分析　65
2.3　GPT-3　66
2.3.1　上下文學習　67
2.3.2　構造訓練資料集　67
2.3.3　訓練停止判定　69
2.3.4　重要潛力　69
2.4　GPT-3.5　70
2.4.1　程式碼生成模型Codex　71
2.4.2　強化學習　76
2.4.3　ChatGPT的「孿生兄弟」：InstructGPT　85
2.4.4　RLAIF　96
2.5　GPT-4　97
2.5.1　GPT-4的非凡表現　98
2.5.2　基於規則的獎勵模型　99
2.5.3　多模態架構　101
2.5.4　訓練流程　103
2.5.5　局限性　104
2.6　語言模型的未來　104
2.6.1　自我學習與自我核實　105
2.6.2　稀疏專家模型　106
2.7　GPT系列的其他應用　107
2.7.1　MiniGPT-4　107
2.7.2　minGPT與nanoGPT　108
2.7.3　AutoGPT與AgentGPT　109
2.8　本章總結　109
第3章　深度生成模型　111
3.1　從自編碼器到變分自編碼器　111
3.1.1　自編碼器　111
3.1.2　變分自編碼器　116
3.2　生成對抗網　119
3.2.1　網絡架構　119
3.2.2　演算法描述　120
3.2.3　實戰：手寫數碼影像生成　122
3.2.4　衍生應用　125
3.3　文字與影像的橋樑：CLIP　129
3.3.1　介紹　129
3.3.2　訓練與推理　129
3.3.3　實戰：圖像文字匹配　132
3.3.4　CLIP的限制　134
3.4　穩定擴散模型：Stable Diffusion　135
3.4.1　基本組件　135
3.4.2　擴散原理　136
3.4.3　資料集建構　139
3.4.4　流程梳理　141
3.4.5　實戰：影像生成　144
3.4.6　Stable Diffusion升級　147
3.5　本章總結　148
第4章　預訓練模型　150
4.1　大模型的湧現能力　151
4.1.1　縮放法則　151
4.1.2　湧現能力　152
4.2　模型參數量估算　153
4.3　通訊資料量分析　155
4.3.1　點對點通訊　156
4.3.2　集群通訊　157
4.4　分佈式訓練　161
4.4.1　基本概念　161
4.4.2　資料並行　163
4.4.3　模型並行　171
4.4.4　混合併行　177
4.4.5　混合精準度訓練　178
4.5　DeepSpeed　180
4.5.1　ZeRO　181
4.5.2　ZeRO-Offload　185
4.5.3　ZeRO-Infinity　189
4.6　模型即服務平臺　190
4.6.1　ModelScope　191
4.6.2　Hugging Face　192
4.7　本章總結　196
第二篇　應用實戰
第5章　文本生成應用實戰：利用ChatPDF與文件對話　198
5.1　大模型的落地應用　198
5.1.1　外部增強：領域工具增強　200
5.1.2　提示詞工程　201
5.1.3　模型微調　207
5.2　GLM系列模型　207
5.2.1　GLM與GLM-130B　209
5.2.2　ChatGLM、ChatGLM-6B和ChatGLM2-6B　211
5.2.3　ChatGLM與ChatGPT的區別　212
5.3　參數高效率微調　213
5.3.1　Adapter Tuning　213
5.3.2　Prompt Tuning　214
5.3.3　Prefix-Tuning　215
5.3.4　P-Tuning　218
5.3.5　P-Tuning v2　219
5.3.6　ChatGLM2-6B的P-Tuning v2微調　220
5.4　大語言模型應用架構：LangChain　222
5.4.1　快速開始　223
5.4.2　基本概念　226
5.5　ChatGLM金融大模型挑戰賽　232
5.5.1　任務目標　232
5.5.2　環境準備：SQLite　234
5.5.3　問題分析　235
5.5.4　NL2SQL　245
5.5.5　DocTree　261
5.5.6　集成　271
5.6　本章總結　275
第6章　文本生成演算法實戰：DeepSpeed-Chat　276
6.1　ZeRO++　276
6.1.1　權重量化　277
6.1.2　分層切片　278
6.1.3　梯度量化　278
6.1.4　ZeRO++與DeepSpeed-Chat結合　279
6.2　DeepSpeed-Chat快速開始　280
6.3　DeepSpeed-Chat的RLHF訓練　281
6.3.1　資料收集與整理　282
6.3.2　有監督微調　284
6.3.3　獎勵模型微調　287
6.3.4　RLHF微調　288
6.3.5　模型部署與測試　290
6.4　DeepSpeed混合引擎　290
6.5　本章總結　291
第7章　影像生成演算法實戰：Stable Diffusion微調　293
7.1　LoRA參數高效率微調技術　293
7.1.1　奇異值分解　294
7.1.2　LoRA詳解　295
7.2　用於Diffusers的LoRA微調　297
7.2.1　資料收集　297
7.2.2　訓練參數配置　300
7.2.3　模型訓練與測試　300
7.3　Stable Diffusion WebUI　302
7.3.1　安裝　304
7.3.2　模型介紹　304
7.3.3　參數介紹　307
7.3.4　其他應用　310
7.4　可控擴散模型：ControlNet　313
7.4.1　原理介紹　314
7.4.2　安裝插件並使用　316
7.5　本章總結　321
第8章　程式碼生成演算法實戰：Code Llama微調　322
8.1　任務介紹　322
8.1.1　程式碼生成模型的應用場景　323
8.1.2　相關模型介紹　327
8.1.3　常用程式碼資料集　331
8.2　Llama 2　336
8.2.1　模型介紹　336
8.2.2　預訓練　336
8.2.3　有監督微調　337
8.2.4　獎勵模型訓練　338
8.2.5　疊代微調　339
8.2.6　多輪對話一致性　339
8.3　演算法競賽大語言模型　340
8.3.1　資料取得　340
8.3.2　資料清洗　348
8.3.3　text-dedup　351
8.3.4　模型訓練　353
8.4　本章總結　358
第9章　綜合應用實戰：建構「漫畫家」生成多模態漫畫　360
9.1　應用介紹　361
9.1.1　需求分析　361
9.1.2　功能設計　363
9.2　功能實現選用　365
9.2.1　相關AI模型　365
9.2.2　後端技術棧　372
9.2.3　小結　377
9.3　相關模型部署　378
9.3.1　Stable Diffusion WebUI部署　378
9.3.2　語音辨識模型：Whisper　381
9.3.3　語音合成模型：Sambert-Hifigan　383
9.4　後端應用搭建　386
9.4.1　創建專案　387
9.4.2　配置應用　388
9.4.3　基本功能開發　390
9.5　本章總結　403