最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型

凌峰 著

  • 出版商: 深智
  • 出版日期: 2026-02-19
  • 定價: $980
  • 售價: 7.9$774
  • 語言: 繁體中文
  • 頁數: 456
  • ISBN: 626775779X
  • ISBN-13: 9786267757796
  • 相關分類: Large language model
  • 尚未上市,歡迎預購

  • 最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型-preview-1
  • 最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型-preview-2
  • 最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型-preview-3
  • 最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型-preview-4
  • 最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型-preview-5
  • 最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型-preview-6
  • 最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型-preview-7
  • 最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型-preview-8
最紮實的基礎 - 使用 PyTorch X Transformer X Hugging Face 實作大模型-preview-1

買這商品的人也買了...

商品描述

【書籍特點】

Transformer 編碼器-解碼器架構與序列建模

自注意力機制、縮放點積注意力與 Softmax 權重

多頭注意力設計、拼接與線性變換

殘差連線、層歸一化、位置編碼實作要點

PyTorch 動態計算圖、自動微分、GPU 加速

從零實作基礎 Transformer 並完成訓練與測試

Hugging Face Transformers:模型載入、配置、訓練與推理

資料前置處理與分詞:清洗、BPEWordPiece、截斷與填充

微調與遷移學習:全參數/部分參數、凍結層、增量訓練

文字生成推理:Beam SearchTop-KTop-P、溫度與重複控制

模型最佳化:剪枝、蒸餾、量化、TorchScriptProfilerAMPCheckpointing

分散式訓練與落地:多GPU/All-Reduce/梯度累積,分類/問答/NER,可解釋性(SHAPLIME),Docker Kubernetes 部署

 

【內容簡介】

本書以Transformer為主線,從PyTorch實作到Hugging Face預訓練模型訓練與微調,依序整理資料前置處理、分詞(BPEWordPiece)、生成推理(Beam SearchTop-KTop-P)、模型最佳化(剪枝、蒸餾、量化、TorchScriptProfiler)、混合精度與多GPU分散式訓練,並以分類、問答、命名實體辨識等NLP任務貫穿,最後完成智慧文字分析平臺的容器化與雲端部署。內容以可執行範例串接關鍵機制,適合大模型開發與NLP研發人員作為實作導向的參考。

 

本書共分12章,第1章介紹大模型與Transformer技術背景、PyTorch特點與簡易Transformer實作;第2章介紹編碼器-解碼器結構、位置編碼、殘差連線與層歸一化的模組化實現;第3章介紹注意力與多頭注意力、權重視覺化與解讀;第4章介紹Hugging Face Transformers載入配置、訓練推理與Tokenizer/Dataset/Pipeline整合;第5章介紹文字清洗、停用詞、BPE/WordPiece分詞、截斷與填充;第6章介紹領域微調、遷移學習、凍結層與增量訓練;第7章介紹文字生成推理與輸出控制;第8章介紹剪枝、蒸餾、量化、混合精度與效能分析;第9章介紹多GPU並行與分散式訓練;第10章介紹分類、問答與命名實體辨識實作;第11章介紹SHAPLIME與注意力可解釋性;第12章整合前述技術開發智慧文字分析平臺並完成DockerKubernetes部署。

作者簡介

凌峰 博士

目前就職於某985高校,長期從事機器學習、人工智慧、電腦視覺與大模型領域的研發與教學,在模型優化、訓練加速、資料驅動演算法開發等方面有深刻見解,參與並主導多項相關科研專案。

目錄大綱

1 Transformer PyTorch 的整合應用概述

1.1 大模型與Transformer 的技術背景

1.1.1 自注意力機制的原理與實現細節

1.1.2 多層堆疊與殘差連線:Transformer 的高效資訊流

1.2 PyTorch 的應用場景與技術特點

1.2.1 動態圖型計算與自動微分機制

1.2.2 GPU 加速與多裝置支援

1.3 快速上手:使用PyTorch 實現一個簡單的Transformer 模型

1.3.1 Transformer 編碼器的基礎實現與訓練流程

1.3.2 解碼器與完整Transformer 模型的拼接與測試

1.4 本章小結

1.5 思考題

 

2 Transformer 編碼器與解碼器的原理與實現

2.1 Transformer 編碼器與解碼器結構分析

2.1.1 位置編碼的設計與實現

2.1.2 多頭注意力與前饋層的層次關係

2.2 基於PyTorch 實現編碼器-解碼器架構

2.2.1 多頭注意力模組的獨立實現與測試

2.2.2 殘差連線與層歸一化的模組化實現

2.3 Transformer 的編碼解碼過程

2.3.1 編碼器多層堆疊與資訊流動的實現

2.3.2 解碼器自迴歸生成過程的實現與視覺化

2.3.3 基於文字的Transformer 例項:逐步列印編碼解碼過程

2.4 編碼器和解碼器的雙向訓練流程

2.4.1 編碼器與解碼器的聯合訓練策略

2.4.2 遮罩機制在雙向訓練中的應用

2.5 本章小結

2.6 思考題

 

3 注意力機制與多頭注意力的實現

3.1 注意力機制的基礎與實現原理

3.1.1 點積注意力與縮放機制

3.1.2 注意力權重的歸一化與Softmax 函式應用

3.2 多頭注意力的設計與實現細節

3.2.1 多頭分組與平行計算策略

3.2.2 多頭注意力的拼接與線性變換

3.3 使用PyTorch 實現多頭注意力並進行視覺化

3.3.1 注意力矩陣的生成與視覺化

3.3.2 不同頭注意力分佈的視覺化分析

3.4 多頭注意力權重的提取與應用

3.4.1 多頭注意力權重提取與解讀:理解模型的關注點

3.4.2 多頭注意力權重的最佳化與調控

3.5 本章小結

3.6 思考題

 

4 Hugging Face Transformers 函式庫的應用

4.1 Transformer 模型的載入與設定

4.1.1 預訓練模型的載入與管理

4.1.2 模型設定自定義與參數調整

4.2 使用Hugging Face 函式庫進行模型訓練與推理

4.2.1 模型訓練資料的前置處理與標註

4.2.2 訓練過程中的參數最佳化與監控

4.3 Hugging Face 生態系統的其他工具介紹

4.3.1 Tokenizer 的自定義與高效分詞方法

4.3.2 Dataset Pipeline 工具的整合應用

4.4 自定義Hugging Face 的模型訓練流程

4.4.1 自定義訓練迴圈與評估指標

4.4.2 遷移學習與微調:從預訓練到特定任務

4.5 本章小結

4.6 思考題

 

5 資料前置處理與文字分詞技術

5.1 文字資料的清洗與標準化

5.1.1 特殊字元和標點的處理

5.1.2 停用詞去除與大小寫規範化

5.2 分詞方法及其在不同模型中的應用

5.2.1 詞級分詞與子詞分詞

5.2.2 BPE WordPiece 分詞演算法的實現原理

5.3 使用PyTorch Hugging Face 進行分詞與詞嵌入

5.3.1 基於Hugging Face Tokenizer 的高效分詞

5.3.2 Embedding 層的定義與詞嵌入矩陣的初始化

5.4 動態分詞與序列截斷技術

5.4.1 處理變長文字輸入

5.4.2 長序列的截斷與填充

5.4.3 綜合案例:文字清洗、分詞、詞嵌入與動態填充

5.5 本章小結

5.6 思考題

 

6 模型微調與遷移學習

6.1 微調與遷移學習的基本概念與方法

6.1.1 遷移學習的系統結構:模型的選擇與調配

6.1.2 全參數微調與部分參數微調的優缺點

6.2 使用預訓練模型進行領域微調

6.2.1 領域特定資料的前置處理與載入

6.2.2 調節學習率與損失函式

6.3 微調策略與最佳化技巧:凍結層、增量訓練等

6.3.1 凍結模型層的選擇與解凍

6.3.2 增量訓練中的資料選擇與樣本權重分配

6.4 增量學習:如何在新資料上繼續微調

6.4.1 基於新資料的微調策略:避免災難性遺忘

6.4.2 使用正規化與約束技術保持原模型效能

6.4.3 綜合案例:增量學習中的微調策略與最佳化

6.5 本章小結

6.6 思考題

 

7 文字生成與推理技術

7.1 文字生成方法概述:Beam SearchTop-K Top-P 取樣

7.1.1 Beam Search 的多路徑生成與評估

7.1.2 Top-K 取樣的限制與稀疏性控制

7.1.3 Top-P 取樣的自適應機率截斷機制

7.2 文字生成模型的應用例項

7.2.1 使用預訓練語言模型生成長篇文字

7.2.2 生成多輪對話的上下文保持與管理

7.2.3 引導生成特定情緒的文字

7.3 生成模型的實現與最佳化

7.3.1 使用PyTorch Transformers 函式庫實現生成模型

7.3.2 生成模型的批次處理與並行加速

7.3.3 生成結果的後處理與資料清洗

7.4 控制生成式模型輸出的技術手段

7.4.1 溫度調控參數的設定與生成調節

7.4.2 限制生成輸出的內容

7.4.3 生成限制:控制模型輸出的重複與一致性

7.5 句子長度與風格調控

7.5.1 強制生成短句或長句

7.5.2 生成特定語法與風格的文字

7.5.3 語言風格遷移與自定義風格調控

7.6 本章小結

7.7 思考題

 

8 模型最佳化與量化技術

8.1 模型最佳化策略概述:剪枝與蒸餾

8.1.1 剪枝策略的型態與應用場景

8.1.2 蒸餾模型的設計與小模型訓練技巧

8.2 模型量化方法在推理中的加速效果

8.2.1 靜態量化與動態量化

8.2.2 量化感知訓練

8.3 基於PyTorch 的模型最佳化與效能測試

8.3.1 TorchScript 在最佳化模型中的應用

8.3.2 使用PyTorch Profiler 進行效能分析

8.4 混合精度訓練與記憶體最佳化

8.4.1 使用AMP 進行混合精度訓練

8.4.2 Gradient Checkpointing 的記憶體管理

8.5 本章小結

8.6 思考題

 

9 分散式訓練與多GPU 並行處理

9.1 分散式訓練的基本原理與架構

9.1.1 資料並行與模型並行的架構

9.1.2 分散式訓練:參數伺服器與All-Reduce

9.2 GPU 並行處理的實現與程式範例

9.2.1 單機多卡的實現與管理

9.2.2 跨機器多GPU 的分散式訓練設定

9.3 梯度累積與分散式同步最佳化

9.3.1 梯度累積應用場景與實現

9.3.2 分散式訓練中的梯度同步與參數更新

9.4 本章小結

9.5 思考題

 

10 NLP 任務例項:分類、問答與命名實體辨識

10.1 文字分類任務實現與最佳化技巧

10.1.1 資料前置處理與標籤平衡技術

10.1.2 超參數調優與模型效能提升

10.2 問答系統的實現流程與程式演示

10.2.1 預訓練語言模型在問答任務中的應用

10.2.2 答案取出與評分機制

10.2.3 多輪問答中的上下文追蹤與資訊保持

10.2.4 知識圖譜增強

10.3 基於Transformer 的序列標註任務實現

10.3.1 命名實體辨識的標註

10.3.2 序列標註模型

10.3.3 綜合案例:基於BERT 的命名實體辨識與上下文追蹤的多輪對話系統

10.4 本章小結

10.5 思考題

 

11 深度學習模型的可解釋性

11.1 使用SHAP LIME 進行特徵重要性分析

11.1.1 SHAP 在深度模型中的應用與特徵影響力排序

11.1.2 LIME 在不同輸入型態下的區域性解釋

11.2 注意力權重提取與層次分析

11.2.1 逐層提取多頭注意力權重

11.2.2 跨層注意力權重變化

11.2.3 綜合案例:基於Transformer 的文字分類模型的多層次可解釋性分析

11.3 本章小結

11.4 思考題

 

12 建構智慧文字分析平臺

12.1 專案概述與模組劃分

12.1.1 專案概述

12.1.2 模組劃分

12.2 模組化開發與測試

12.2.1 資料收集與前置處理

12.2.2 文字生成與內容生成

12.2.3 高階文字分析

12.2.4 模型最佳化與推理效能提升

12.2.5 GPU 與分散式訓練

12.2.6 可解釋性分析與模型可控性

12.2.7 單元測試

12.2.8 整合測試

12.3 平臺容器化部署與雲端部署

12.3.1 使用Docker 進行容器化部署

12.3.2 使用Kubernetes 實現雲端可擴充性和高可用性

12.4 本章小結

12.5 思考題