大語言模型全鏈路解析 從架構設計 訓練化到應用開發

袁從德

  • 出版商: 機械工業
  • 出版日期: 2026-03-01
  • 售價: $594
  • 語言: 簡體中文
  • ISBN: 7111800370
  • ISBN-13: 9787111800378
  • 相關分類: Large language model
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

這是一本系統講解大語言模型全鏈路技術的實戰指南,以“基礎理論—技術實踐—產業應用—未來發展”為邏輯主線,覆蓋從技術原理、架構設計、訓練優化到應用開發和產業落地的完整知識體系。 本書是資深人工智能與算法工程師在騰訊的大模型實戰經驗總結,內容分為四篇。 第一篇,初識大語言模型。梳理大語言模型發展歷程與核心概念,解析預訓練與微調機制,對比傳統循環神經網絡與Transformer架構差異,結合數學知識為零基礎讀者構建認知框架。 第二篇,大語言模型全解析。遵循“基礎架構—訓練方法—技術案例—後訓練優化—評測體系—性能提升”的邏輯鏈條展開,聚焦DeepSeek的技術突破,系統講解預訓練目標設計、後訓練優化(SFT/RLHF)、模型評測體系,並深入分析推理性能瓶頸及在硬件加速與算法層面的優化方案。 第三篇,大語言模型應用開發及實踐。緊扣真實場景落地需求,詳解提示工程、思維鏈、檢索增強生成及智能體開發的全流程方法論與工具鏈整合策略。 第四篇,大語言模型的未來發展。前瞻性地探討多模態融合(如視覺—語言指令微調)、具身智能與通用人工智能(AGI)的演進路徑,為技術決策者提供戰略級行業洞察。 大語言模型正以顛覆性力量重塑人工智能的邊界。本書致力於成為連接理論探索與工程實踐的堅實橋梁——無論你是希望夯實技術根基的工程師,還是謀劃未來布局的戰略決策者,都能從中獲得啟發,在通往通用智能的浪潮中,走出屬於自己的創新路徑。

作者簡介

袁從德 人工智能與算法工程專家,擁有近九年頭部互聯網企業技術研發與團隊管理經驗。曾任職於騰訊、阿裏巴巴,主導騰訊遊戲廣告算法、增長智能建模等核心項目,在廣告出價、排序模型預估、預算優化、大模型應用及數據基礎設施等領域取得多項技術突破,相關成果發表於CIKM等國際頂會,並獲得中國及中國香港地區發明專利5項。2025年起投身創業,聚焦大語言模型在跨境電商達人營銷與青少年心理健康等垂直場景的全鏈路落地。 極客時間“強化學習快速入門與實戰”“大模型應用一站式開發”專欄作者,並擔任2025年全國大學生“區塊鏈+”應用大賽評委。

目錄大綱

前言
第一篇 初識大語言模型
第1章 走近大語言模型
1.1 大語言模型的發展歷程
1.2 語言模型的核心概念
1.2.1 基礎概念
1.2.2 分詞
1.2.3 詞向量
1.2.4 從靜態詞向量到深度神經網絡
1.3 預訓練和微調
1.3.1 預訓練
1.3.2 預訓練階段的模型
1.3.3 微調
1.3.4 提示學習和指示學習
第2章 探索大語言模型的關鍵技術
2.1 大語言模型的基礎知識
2.1.1 機器學習基礎知識
2.1.2 數學基礎知識
2.2 在Transformer之前的常用模型
2.2.1 循環神經網絡
2.2.2 編碼器-解碼器架構
2.3 Transformer
2.3.1 Transformer架構
2.3.2 位置編碼
2.3.3 層歸一化
2.3.4 激活函數
2.4 解碼策略
2.4.1 概率最大化方法
2.4.2 采樣方法
2.5 嵌入技術
2.5.1 嵌入技術簡介
2.5.2 嵌入的價值
2.5.3 主流的嵌入訓練方法
2.5.4 擴展嵌入序列的長度
2.6 擴展法則和湧現能力
……
第二篇 大語言模型全解析
第三篇 大語言模型應用開發及實踐
第四篇 大語言模型的未來發展