大語言模型
大語言模型
- 出版商: 機械工業
- 出版日期: 2024-09-01
- 定價: $534
- 售價: 8.5 折 $453
- 語言: 簡體中文
- 頁數: 234
- 裝訂: 平裝
- ISBN: 7111762762
- ISBN-13: 9787111762768
-
相關分類:
Large language model
立即出貨 (庫存 < 4)
買這商品的人也買了...
LLM 大語言模型|2書75折 詳見活動內容 »
-
78折
零基礎玩轉 LLM 應用全攻略:Python × No-Code 實作 AI 開發超簡單(iThome鐵人賽系列書)$690$538 -
79折
大型語言模型應用實戰:從 Prompt Engineering 到 Agentic RAG 與 MCP$790$624 -
78折
大模型時代:從 ChatGPT 一枝獨秀到全面開戰的 AI 賽局$500$390 -
79折
業界實戰親授 - 大型語言模型微調、最佳化、佈署一次到位$980$774 -
79折
深度學習最佳入門與專題實戰:自然語言處理、大型語言模型與強化學習篇$880$695 -
79折
AIGC 大型語言模型 - 個人應用到企業實戰立刻上手$780$616 -
79折
讓 LLM 飛起來的工具使用 - AI Agent MCP 協議開發、標準、應用$790$624 -
79折
AI Agent 手刻首選 - 使用 LangChain 親手實作 LLM 大型商業專案$880$695 -
79折
LLMOps 打造穩定運行的大型語言模型系統 (LLMOps: Managing Large Language Models in Production)$620$489 -
79折
實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式$880$695 -
7折
AI 程式設計、深度學習與 LLM 入門到精通:PyTorch × GPT × Transformer × LLaMA 實作指南(iThome鐵人賽系列書)$650$455 -
79折
LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)$1,250$987 -
79折
AI Agent 智能工作流:設計與自動化全實戰$760$600 -
79折
不再是 ChatBot - 最新 AI Agent 代理建構$880$695 -
79折
最新 AI 開發範式 - Agent 多重智慧體自動產生應用$680$537 -
79折
LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具$680$537 -
79折
LLM 語意理解與生成技術完全開發 (Hands-On Large Language Models)$980$774 -
79折
LLM × 網路爬蟲終極實戰:n8n 串接資料爬取 × Qdrant × RAG 打造本機 AI Agent$980$774 -
79折
Node.js 與 LLM 原理與實務:AI 應用程式開發$780$616 -
79折
知道你的下一筆訂單 - 使用 LLM$980$774 -
79折
更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練$980$774 -
79折
AI Agent 自動化流程超 Easy -- 不寫程式 No Code 聰明完成樣樣事$750$592 -
79折
Ollama 本地 AI 全方位攻略:命令列功能、五大主題測試、RAG、Vibe Coding、MCP,一本搞定所有實戰應用$750$592 -
VIP 95折
AI傳媒學:大模型助力傳媒行業應用與創新$588$558 -
7折
深談 AWS 雲端上的 AI Agent:系統化學習 AWS-AI 證照,協助企業管理 AI Agent$680$476
商品描述
本書系統性地介紹了大語言模型的理論基礎、技術架構、應用實踐和發展趨勢,旨在為讀者深入瞭解大語言模型相關知識提供參考。
本書共10章,從邏輯上分為四個部分:
第一部分(第1-4章)由語言模型的基本概念入手,介紹了大模型的基礎構件、技術發展的脈絡及範式,以及模型對齊的方法;
第二部分(第5和6章)詳細介紹了大模型的評測與分佈式訓練的基本原理;
第三部分(第7-9章)著重介紹了大模型在垂直場景的應用、知識融合與工具使用的方法及大模型最佳化的高階主題;
第四部分(第10章)展望了大模型未來的發展方向與挑戰。
作者簡介
蘇之陽,博士,畢業於香港科技大學,現任小冰公司研發總監,專註於自然語言處理產品的研發工作。他主導了小冰框架、小冰智能評論和XEva等項目的架構設計和開發,特別是在大語言模型的研發與應用方面具有豐富的經驗。他曾任微軟公司資深研發工程師,並在國際學術會議和期刊上發表多篇高水平學術論文。他的研究興趣涵蓋自然語言處理、深度學習以及雲計算等領域。
目錄大綱
前言
第1章 語言模型簡介
1.1 傳統語言模型
1.1.1 n-gram語言模型
1.1.2 神經網絡語言模型
1.1.3 傳統語言模型的應用
1.2 大語言模型
1.2.1 大模型的發展歷程
1.2.2 訓練大模型的挑戰
1.2.3 大模型的應用
1.3 大模型實例
1.3.1 基座模型實例
1.3.2 對齊模型實例
1.4 小結
第2章 大模型網絡結構
2.1 Seq2Seq結構
2.2 註意力機制
2.3 Transformer架構
2.3.1 Transformer模型結構
2.3.2 編碼器單元
2.3.3 解碼器單元
2.3.4 位置編碼
2.4 詞元化
2.4.1 BPE
2.4.2 字節級BPE
2.4.3 WordPiece
2.4.4 Unigram語言模型
2.4.5 SentencePiece
2.5 解碼策略
2.5.1 貪心搜索
2.5.2 集束搜索
2.5.3 Top-k採樣
2.5.4 核採樣
2.5.5 溫度採樣
2.6 小結
第3章 大模型學習範式的演進
3.1 預訓練與微調的原理和典型模型
3.1.1 預訓練與微調
3.1.2 三個典型模型
3.2 多任務學習的原理和典型模型
3.2.1 多任務學習
3.2.2 兩個典型模型
3.3 大規模模型的能力
3.3.1 少樣本學習
3.3.2 提示學習
3.3.3 上下文學習
3.4 小結
第4章 大模型對齊訓練
4.1 對齊
4.1.1 對齊的定義
4.1.2 對齊的衡量指標
4.2 基於人類反饋的強化學習
4.2.1 監督微調的原理
4.2.2 訓練獎勵模型的原理
4.2.3 強化學習的原理
4.3 基於AI反饋的強化學習
4.4 直接偏好優化
4.5 超級對齊
4.6 小結
第5章 大模型評測與數據集
5.1 大模型評測方法
5.1.1 人工評測
5.1.2 自動評測
5.2 大模型評測指標
5.2.1 準確率、精確率、召回率與F1分數
5.2.2 困惑度
5.2.3 BLEU與ROUGE
5.2.4 pass@k
5.3 大模型能力評測基準
5.3.1 MMLU
5.3.2 GSM8K
5.3.3 C-Eval
5.3.4 HumanEval
5.4 數據集及預處理方法
5.4.1 預訓練數據集
5.4.2 指令微調數據集
5.4.3 人工反饋數據集
5.4.4 數據預處理方法
5.5 小結
第6章 分佈式訓練與內存優化
6.1 大模型擴展法則
6.2 分佈式訓練策略
6.2.1 數據並行
6.2.2 張量並行
6.2.3 流水線並行
6.2.4 混合並行
6.3 大模型訓練中的不穩定現象
6.4 分佈式訓練集群架構
6.4.1 中心化架構:參數服務器
6.4.2 去中心化架構:集合
通信
6.5 內存優化策略
6.5.1 混合精度訓練
6.5.2 梯度檢查點
6.5.3 梯度累積
6.5.4 FlashAttention
6.6 分佈式訓練框架
6.7 小結
第7章 大模型的垂直場景適配方案
7.1 從零開始訓練新模型
7.2 全量參數微調
7.3 低參數量微調
7.3.1 適配器方法
7.3.2 提示詞微調
7.3.3 前綴微調
7.3.4 LoRA
7.4 超低參數量微調的探索
7.5 小結
第8章 知識融合與工具使用
8.1 知識融合
8.1.1 檢索增強生成
8.1.2 解碼器融合
8.1.3 提示融合
8.2 工具使用
8.2.1 WebGPT
8.2.2 LaMDA
8.2.3 Toolformer
8.3 自主智能體
8.3.1 自主智能體的組件
8.3.2 自主智能體的工作流程
8.4 小結
第9章 大模型的進階優化
9.1 模型小型化
9.1.1 模型量化
9.1.2 知識蒸餾
9.1.3 參數剪枝
9.2 推理能力及其延伸
9.2.1 思維鏈
9.2.2 零樣本思維鏈
9.2.3 最少到最多提示
9.2.4 ReAct:推理能力行動能力
9.3 代碼生成
9.3.1 Codex
9.3.2 代碼生成的要素
9.4 多模態大模型
9.4.1 BEiT-3
9.4.2 CLIP
9.4.3 Flamingo
9.4.4 MiniGPT-4
9.5 高質量數據的作用與構建
9.5.1 LIMA
9.5.2 教科書級數據
9.6 模型能力“湧現”的原因
9.7 小結
第10章 大模型的局限性與未來發展方向
10.1 大模型的局限性
10.1.1 事實性錯誤
10.1.2 理解和推理缺陷
10.1.3 知識更新問題
10.1.4 安全性問題
10.1.5 計算資源限制
10.2 大模型的未來發展方向
10.2.1 更強的記憶:從通用到個性化
10.2.2 裝上“手腳”:賦予模型使用工具的能力
10.2.3 多模態交互:穿越文本的邊界
10.3 小結
參考文獻
