大模型技術與構建:從入門到實戰:插畫版

邏輯簡墨

  • 出版商: 化學工業
  • 出版日期: 2025-10-01
  • 售價: $534
  • 語言: 簡體中文
  • 頁數: 215
  • ISBN: 7122486761
  • ISBN-13: 9787122486769
  • 相關分類: Large language model
  • 尚未上市,歡迎預購

相關主題

商品描述

《玩轉大模型技術與構建:從入門到實戰(插畫版)》以人文與科技交融的筆觸, 讀者穿越語言與智能交織的文明長河。從人類語言的起源與數字時代的語言變革切入,本書不僅解析了自然語言處理技術的演進脈絡, 以Transformer架構為錨點,層層揭開大語言模型從數學原理到工程實踐的神秘面紗。書中既有GPT、BERT等裏程碑模型的深度拆解,亦不乏情感分析、跨語言處理等前沿場景的實戰指南, 以Hugging Face生態與LoRA微調等硬核技術,為讀者搭建起從理論到落地的完整橋梁。在理性與詩意的交織中,本書不僅是一部技術手冊, 是一扇通向人機協同未來的窗口。

目錄大綱

第1章 從語言到智能
1.1 語言的起源 2
1.1.1 人類語言的起源 2
1.1.2 語言發展中的重要裏程碑 3
1.2 語言在信息社會中的重要性 5
1.2.1 數字化時代中的語言變革 5
1.2.2 社交媒體對語言的影響 6
1.3 人工智能時代的語言技術 7
1.3.1 自然語言處理的定義和應用範圍 7
1.3.2 機器翻譯與自然語言生成技術 9

第2章 走近大語言模型 14
2.1 Transformer:自然語言處理的新趨勢 15
2.1.1 文本分類 16
2.1.2 自然語言推理 18
2.1.3 語義相似度計算 20
2.1.4 命名實體識別 22
2.1.5 摘要生成 23
2.2 Transformer初體驗:大模型的前世今生 24
2.2.1 Transformer工作原理淺析 24
2.2.2 代碼示例:Transformer文本處理 25
2.3 詞嵌入和神經網絡:大語言模型的基石 29
2.3.1 詞嵌入的奇妙世界 29
2.3.2 詞嵌入與神經網絡的融合 31
2.3.3 神奇的註意力機制 32
2.3.4 像素級Query-Key-Value機制詳解 35
2.4 大語言模型:數學的韻律,文本的樂章 41
2.4.1 從神經網絡到大語言模型的演進 41
2.4.2 大語言模型的概念 43
2.4.3 大語言模型的架構和特點 44

第3章 深入理解Transformer核心 45
3.1 Transformer模型剖析:揭示內核機制 46
3.1.1 Transformer模型概述 46
3.1.2 引入編碼器與解碼器 48
3.2 編碼器:文本信息的變換引擎 52
3.2.1 詞嵌入和位置編碼 53
3.2.2 自註意力機制和多頭註意力機制 54
3.2.3 前饋神經網絡層和殘差連接 59
3.2.4 Dropout正則化機制 63
3.3 編碼器+解碼器:信息傳遞與生成的精華 67
3.3.1 交叉註意力機制和輸出分布計算 67
3.3.2 掩蔽處理和序列生成 68
3.4 解碼器:文本生成的要訣 69
3.4.1 省略交叉註意力機制 69
3.4.2 自回歸生成任務的應用 71
3.5 像素級Transformer詳解:中譯英為例 71

第4章 大語言模型技術精要 81
4.1 文本解析:語言預測之道探索 82
4.1.1 文字預測的基本原理 82
4.1.2 文字預測的學習過程 84
4.1.3 大模型中的文本預測應用 85
4.2 GPT:文本生成的靈魂 86
4.2.1 輸入數據的表示方法 86
4.2.2 預訓練策略和技術 87
4.2.3 微調方法和應用 89
4.2.4 GPT代碼實踐:文本生成 92
4.3 BERT ﹒RoBERTa:文本編碼的新思路 93
4.3.1 輸入數據的表示方法 94
4.3.2 預訓練策略和技術 96
4.3.3 微調方法和應用 98
4.3.4 BERT代碼實踐:文本填空 99
4.4 T5:融合之美 ,文本轉換的全新範式 100
4.4.1 輸入數據的表示方法 101
4.4.2 預訓練策略和技術 102
4.4.3 微調方法和應用 103
4.4.4 T5代碼實踐:摘要生成 104
4.5 跨語言模型:多語言處理的新前沿 105
4.5.1 跨語言模型的優勢和特點 105
4.5.2 跨語言模型挑戰與策略 105
4.5.3 多語言模型在實踐中的應用案例 106
4.6 語言文字處理:微觀視角的文本挖掘 107
4.6.1 字節對編碼技術和實踐 107
4.6.2 WordPiece方法探索和應用 110
4.6.3 中文文字的處理策略 111
4.6.4 中文文字處理的前沿探索 112
4.7 大語言模型的蛻變:技術演進與前瞻展望 113
4.7.1 模型的提示控制技術 114
4.7.2 對準技術的重要性 121
4.7.3 指令微調 122
4.7.4 ChatGPT與RLHF 124
4.7.5 DeepSeek 126

第5章 大語言模型系統開發構建 129
5.1 Hugging Face基礎:駕馭Transformers 130
5.1.1 Hugging Face介紹 130
5.1.2 訪問模型的方式 131
5.1.3 用Transformers訪問模型 132
5.2 中文基準測試:窺探性能 143
5.2.1 數據集組成與構建方法 143
5.2.2 大模型性能評估指標 144
5.2.3 CLUE任務與數據集簡介 144
5.3 實現情感分析模型:探索情感世界的大門 146
5.3.1 環境搭建與數據準備 146
5.3.2 數據探索性分析 149
5.3.3 數據預處理 154
5.3.4 模型訓練與評估 158
5.3.5 Early Stopping機制 166
5.4 情感分析模型的微調分析:情感的微妙之處 167
5.4.1 查看模型預測的結果 167
5.4.2 總體趨勢可視化分析 169
5.4.3 分析模型預測出錯傾向 171
5.5 指令微調策略:Instructing Tuning 173
5.5.1 學習數據的獲取 173
5.5.2 創建學習數據 174
5.5.3 執行指令微調 175
5.5.4 語句生成 177
5.6 發揮硬件極限的微調:策略與技巧 178
5.6.1 AMP深度學習優化策略 179
5.6.2 梯度累計策略 181
5.6.3 梯度檢查點 182
5.6.4 LoRA微調策略 183
5.6.5 LoRA微調實現 185
5.6.6 QLoRA信息壓縮策略 190
5.6.7 提示微調的策略:平衡成本與性能 193

第6章 大語言模型核心實踐 196
6.1 RAG:使用搜索生成語句 197
6.1.1 什麼是RAG 197
6.1.2 構建矢量數據庫 198
6.2 LangChain庫:基礎入門 203
6.2.1 LangChain介紹 204
6.2.2 LangChain基礎庫 204
6.2.3 LangChain核心組件 206
6.3 基於開源LLM構建RAG問答系統 210
6.3.1 什麼是QA系統 210
6.3.2 構建開源RAG 213