相關主題
商品描述
本書是一本系統講解DeepSeek開發的技術指南,傳授大家開發DeepSeek模型的基礎知識。旨在幫助讀者深入理解DeepSeek的工作機制,並掌握其在大規模預訓練、推理優化及應用開發中的關鍵技術。 全書共10章,依次介紹文本預處理、特徵提取、文本分類與情感分析、語言的生成、機器翻譯、DeepSeek的核心Transformer模型、多模態模型的架構和訓練、預訓練模型的訓練與微調、DeepSeek API應用開發實戰,以及基於DeepSeek的Web知識庫系統。 本書不僅適合對大模型感興趣的技術人員閱讀,也適合人工智能研究者、開發者及行業從業者等閱讀。
作者簡介
張治政,中國海洋大學計算機碩士,哈爾濱工業大學通信博士,百度雲研發工程師,百度大模型工程師,在大規模機器學習、深度學習、數據搜索、行業垂直應用、研發管理等領域擁有豐富經驗。在企業智能化轉型、業務 化經營、擁有豐富的大規模搜索架構、個性化推薦架構、機器學 統架構經驗和技術團隊管理經驗。現在從事城市大數據中心的開發和建設工作,將深度學習運用到數字經濟等領域。 薛棟 ---------------------------- 薛棟,華東理工大學信息科學與技術學院副教授、碩士生導師,德國慕尼黑工業大學工學博士,上海市高層次青年人才計劃上海市浦江人才計劃獲得者。所在的X-D Lab(心動實驗室)致力於人工智能技術的探索與研究,已發布多個垂直領域的大模型項目,包括心理領域的MindChat(漫談)、醫療領域的 Sunsimiao(孫思邈)、教育領域的 GradChat(錦鯉)。 公鑫 ---------------------------- 公鑫,東南大學副教授,香港大學控制工程專業博士,研究領域主要聚焦集群智能,包括分佈式控制、估計與優化、基於分佈式估計和數字孿生的覆合網絡攻擊與防禦等。現任中國指揮與控制學會 會員和青工委委員、中國自動化學會會員、中國計算機學會會員和網絡彈性專委會委員、IEEE Member,並在多個 期刊和會議上擔任審稿人和分會場 ,曾獲多項傑出審稿人獎。
目錄大綱
目錄
第1章 明月松間照,清泉石上流:文本預處理
1.1分詞
1.1.1 分詞的重要性和基本原理
1.1.2 基於空格的分詞
1.1.3 基於標點符號的分詞
1.2 詞幹化與詞形還原
1.2.1 詞幹化與詞形還原的區別
1.2.2 詞幹化
1.2.3 詞形還原
1.3 去除停用詞
1.3.1 什麽是停用詞
1.3.2 基於詞匯列表的去除
1.3.3 基於詞頻的去除
1.3.4 TF-IDF 方法去除
1.3.5 機器學習方法去除
1.4 數據清洗和處理
1.4.1 處理缺失值
1.4.2 異常值檢測與處理
1.4.3 處理重覆數據
第2章 大音希聲,大象無形:特徵提取
2.1 特徵提取介紹
2.1.1 特徵在大模型中的關鍵作用
2.1.2 特徵提取與數據預處理的關系
2.2 特徵選擇
2.2.1 特徵選擇的必要性
2.2.2 特徵選擇的方法
2.3特徵抽取
2.3.1 特徵抽取的概念
2.3.2 主成分分析
2.3.3 獨立成分分析
2.3.4 自動編碼器
2.4 嵌入
2.4.1 嵌入介紹
2.4.2 使用嵌入層進行特徵提取
2.4.3 Word2Vec 模型
2.4.4 GloVe 模型
2.5 詞袋模型
2.5.1 實現詞袋模型的步驟
2.5.2 詞袋模型的限制與改進
2.6 TF-IDF 值
2.6.1 什麽是 TF-IDF
2.6.2 使用 TF-IDF 方法提取文本特徵
2.6.3 TF-IDF 方法與詞袋模型的比較
第3章 人有悲歡離合,月有陰晴圓缺:文本分類與情感分析
3.1 樸素貝葉斯分類器
3.1.1 樸素貝葉斯分類器的基本概念
3.1.2 樸素貝葉斯分類器的應用場景
3.2? 支持向量機
3.2.1 SVM 介紹
3.2.2 線性 SVM 與非線性 SVM
3.3 隨機森林
3.3.1 隨機森林介紹
3.3.2 隨機森林的應用場景
3.4? 捲積神經網絡
3.4.1 CNN 的發展背景
3.3.2 CNN 的結構
3.3.3 文本特徵提取與分類
3.5 循環神經網絡
3.5.1 循環神經網絡介紹
3.5.2 使用 TensorFlow 框架製作情感分析模型
3.6 遞歸神經網絡
3.6.1 遞歸神經網絡的主要特點
3.6.2 RvNN
第4章 白日依山盡,黃河入海流:語言的生成
4.1 基於規則的生成
4.1.1 基於規則的生成方法介紹
4.1.2 基於規則的生成方法在 NLP 中的應用場景
4.2 基於統計的生成
4.2.1 基於統計的生成方法介紹
4.2.2 N-gram 模型
4.2.3 隱馬爾可夫模型
4.2.4 熵模型
4.3 基於神經網絡的生成
4.3.1 基於神經網絡的生成方法
4.3.2 生成對抗網絡
4.4? 註意力機制
4.4.1 註意力機制介紹
4.4.2 註意力機制的變體
4.5 序列到序列模型
4.5.1 Seq2Seq 模型介紹
4.5.2 使用 Seq2Seq 模型實現翻譯系統
第5章 海內存知己,天涯若比鄰:機器翻譯
5.1 統計機器翻譯
5.1.1 SMT 介紹
5.1.2 SMT 模型
5.1.3 SMT 的訓練和解碼
5.2 神經機器翻譯
5.2.1 NMT 的特點和工作流程
5.2.2 NMT 的訓練和解碼
5.2.3 基於 NMT 的簡易翻譯系統
第6章 會當淩 頂,一覽眾山小:DeepSeek 的核心 Transformer 模型
6.1 Transformer 模型介紹
6.1.1 Transformer 模型的基本概念
6.1.2 Transformer 模型的優勢
6.1.3 Transformer 模型的核心組件
6.1.4 機器翻譯任務中的 Transformer 模型
6.2 多頭註意力機制和多頭潛在註意力
6.2.1 多頭註意力機制
6.2.2 多頭潛在註意力
6.3 混合專家架構
6.3.1 MoE 架構介紹
6.3.2 MoE 架構的特點
6.3.3 MoE 架構的應用
6.3.4 DeepSeek 中的 MoE 架構介紹
第7章 大漠孤煙直,長河落日圓:多模態模型的架構和訓練
7.1 多模態技術簡介
7.1.1 多模態介紹
7.1.2 多模態技術的發展歷史
7.2 DeepSeek 的多模態大模型
7.2.1 DeepSeek 多模態大模型的發展歷程
7.2.2 架構介紹
7.2.3 多模態理解
7.2.4 視覺生成路徑
7.2.5 自回歸 Transformer 模型
7.2.6 三階段訓練策略
7.3 訓練策略
7.3.1 多任務學習
7.3.2 全量微調
7.3.3 對比學習
7.3.4 參數高效微調
7.3.5 遷移學習
7.3.6 人類反饋強化學習
7.3.7 動態學習率調整
7.3.8 監督微調
第8章 學而時習之,不亦說乎:預訓練模型的訓練和微調
8.1 預訓練模型的訓練和微調介紹
8.1.1 預訓練
8.1.2 微調
8.1.3 預訓練與微調的對比
8.2 CLIP 模型的微調
8.2.1 實例介紹
8.2.2 創建文本和圖像配對數據集
8.2.3 創建模型
8.2.4 訓練模型
8.2.5 模型微調
8.2.6 調試運行
8.3 使用 KTO 微調 DeepSeek-R1-Distill Qwen 模型
8.3.1 KTO 的概念
8.3.2 DeepSeek-R1-Distill-Qwen 模型介紹
8.3.3 具體實現
第9章 千帆過盡,始見真章:DeepSeek API 應用開發實戰
9.1 DeepSeek API 開發基礎
9.1.1 DeepSeek API 介紹
9.1.2 DeepSeek API 基本教程
9.1.3 基於 DeepSeek API 的對話應用程序
9.2 DeepSeek 的基本接入實戰
9.2.1 Chatbox 接入實戰
9.2.2 NextChat 接入實戰
9.3 社交媒體工具接入實戰
9.3.1 基於 DeepSeek 的微信聊天 機器人
9.3.2 基於 DeepSeek 的 QQ 機器人
9.4 將 DeepSeek 接入到 Office
9.4.1 OfficeAI 介紹
9.4.2 在 Word 中應用 DeepSeek
9.4.3 在 Excel 中應用 DeepSeek
9.5 將 DeepSeek 接入 VS Code
9.5.1 Continue 插件基礎
9.5.2 將 DeepSeek 接入 VS Code 316
9.5.3 調用 DeepSeek 生成代碼
9.5.4 DeepSeek 代碼生成和補全
第 10 章 紙上得來終覺淺, 知此事要躬行:基於 DeepSeek 的 Web 知識庫系統
10.1 項目介紹
10.1.1 背景介紹
10.1.2 市場需求
10.1.3 主要功能
10.1.4 技術棧
10.2 配置文件和基礎工具函數
10.2.1 導航欄配置
10.2.2 基礎工具函數
10.2.3 API 交互工具函數
10.3 組件
10.3.1 頁面佈局組件
10.3.2 聊天組件
10.4 調試運行