擴散模型 — 核心原理與強化學習優化
陳雲 牛雅哲 張金歐文
- 出版商: 機械工業
- 出版日期: 2025-11-01
- 售價: $479
- 貴賓價: 9.5 折 $455
- 語言: 簡體中文
- 頁數: 178
- ISBN: 7115676127
- ISBN-13: 9787115676122
-
相關分類:
Reinforcement
立即出貨
買這商品的人也買了...
-
資料通訊網路, 5/e (Data Communications and Networking, 5/e)$850$808 -
自然語言處理:用人工智慧看懂中文$690$587 -
$414網絡輿情分析技術 -
電腦網際網路, 7/e (國際版)(Computer Networking: A Top-Down Approach, 7/e)(附部分內容光碟)$680$612 -
實用深度學習$360$353 -
TQC+ 創意 App 程式設計認證指南 App Inventor 2 (第二版)$390$308 -
TQC+ 創意 App 程式設計認證指南解題秘笈 -- App Inventor 2 (第二版)$250$198 -
NumPy 高速運算徹底解說 - 六行寫一隻程式?你真懂深度學習?手工算給你看!$750$638 -
圖解 TCP/IP 網路通訊協定 (涵蓋IPv6)(2021修訂版)$620$490 -
TQC+ Python 3.x 機器學習基礎與應用特訓教材$590$531 -
超端新世代網路概論, 2/e$560$476 -
貝葉斯統計導論$539$512 -
Python 資料分析必備套件!Pandas 資料清理、重塑、過濾、視覺化 (Pandas 1.x Cookbook, 2/e)$780$663 -
網頁設計丙級檢定學術科解題教本|111年啟用試題$420$332 -
人工智慧, 2/e$580$522 -
極深入卻極清楚:電腦網路原理從 OSI 實體層到應用層$880$695 -
AI for the Sustainable Development Goals$1,540$1,463 -
$3,116Measuring Esg Effects in Systematic Investing -
簡約的軟體開發思維:用 Functional Programming 重構程式 - 以 Javascript 為例 (Grokking Simplicity: Taming Complex Software with Functional Thinking)$1,000$790 -
AI 工程|從基礎模型建構應用 (AI Engineering : Building Applications with Foundation Models)$1,200$948 -
LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)$1,250$988 -
$1,014Web 開發基礎 (原書第3版) -
零花費上手!Gemini 3 / NotebookLM / Nano Banana Pro / Veo 3.x 最強 AI 組合技,打造全能工作流$560$442 -
LLM 提示工程技術|打造兼具藝術與科學的高效應用 (Prompt Engineering for LLMs: The Art and Science of Building Large Language Model-Based Applications)$620$490 -
Vibe Coding 提示詞全攻略! 從概念到業界實戰:提示工程 / 程式碼維護 / Cursor / ChatGPT Codex / Lovable$690$545
相關主題
商品描述
本書通過系統化的理論講解與實戰導向的案例分析,幫助讀者掌握擴散模型與強化學習的結合應用,探索其針對實際問題的解決方案。書中首先介紹了生成模型的發展史,特別是擴散模型的起源和核心思想,為讀者學習後續章節奠定基礎;然後深入探討了擴散模型在構建決策智能體、結合價值函數等方面的應用,還詳細講解了如何利用擴散模型解決軌跡優化和策略優化等問題;接下來探索了擴散模型在多任務泛化和世界模型建模方面的擴展應用,展示了其在覆雜環境中的適應性和靈活性;最後討論了利用強化學習優化擴散模型的新進展,以及擴散模型在決策問題上的前沿研究方向。
作者簡介
陳雲
北京大學智能科學與技術專業學士、軟件工程碩士,現任阿裏巴巴國際數字商業集團智能技術部推薦算法工程師,主要研究方向為生成式人工智能在智能推薦與商業廣告中的創新應用。曾於上海人工智能實驗室擔任研究員,深度參與開源強化學習平臺DI-engine的研發與維護,並在生成式策略學習與擴散模型方向持續輸出技術博客文章與開源實踐項目,目前多項研究成果發表於國際頂級會議及期刊。
牛雅哲
上海人工智能實驗室前沿探索中心研究員,開源決策智能組織OpenDILab(GitHub Star
數超2.7萬,為國內影響力廣泛的決策智能開源組織)負責人。曾在NeurIPS、ICLR、AAAI等機器學習頂級會議上發表多篇論文,在強化學習、分布式系統及大模型訓練基建等領域擁有多年研發經驗,長期致力於探索機器學習算法與系統設計優化相結合的最佳實踐路徑。
張金歐文
上海人工智能實驗室AI For Science中心算法工程師,研究方向為生成模型、強化學習、科學智能與工業智能。
目錄大綱
第 1 章 起源:擴散模型簡介 1
11 生成模型的發展史 1
12 擴散模型核心思想介紹 4
121 擴散過程及其逆過程 4
122 擴散模型的訓練 7
123 擴散模型的推斷 8
124 擴散模型的評價指標 9
125 擴散模型的類型 10
13 條件擴散模型 13
131 分類器引導采樣和無分類器引導采樣 13
132 ControlNet 15
14 擴散模型加速采樣方法 17
141 training-free 加速采樣方法 18
142 training-based 加速采樣方法24
參考文獻27
第 2 章 基石:擴散模型與軌跡優化問題 29
21 離線強化學習 29
22 第 一個基於擴散模型的決策智能體:Plan Diffuser 31
221 以軌跡片段為對象的擴散模型 31
222 Plan Diffuser 的建模與優化 32
223 Plan Diffuser 的特性 39
224 從實驗中解析 Plan Diffuser 40
225 靈活的測試目標 42
226 離線強化學習 43
227 擴散模型熱啟動 44
23 條件生成決策模型的集大成者:Decision Diffuser 45
231 Decision Diffuser 的建模與優化 45
232 回報以外的條件變量 47
24 代碼實戰 54
241 導入第三方庫 54
242 準備數據集 54
243 配置擴散模型 56
244 實例化擴散模型 57
245 訓練條件擴散模型 57
246 條件采樣 58
參考文獻60
第 3 章 基石:擴散模型與價值函數的結合 61
31 強化學習中基於價值函數的策略優化 61
32 Diffusion-QL :高效建模離線數據集中的行為策略 62
33 CEP 和 QGPO :借助能量函數設計新的引導器 64
331 對比能量預測法 65
332 基於 Q 價值函數引導的策略優化 69
34 LDCQ :擴散模型約束下的 Q-learning 77
341 背景知識 78
342 隱空間擴散強化學習 80
343 以目標為條件的隱空間擴散模型 84
344 實驗與分析 84
345 局限性與展望 88
參考文獻89
第 4 章 基石:擴散模型訓練技巧指南 90
41 如何設計去噪網絡 90
411 U-Net 90
412 DiT 92
413 文本編碼器 98
42 如何設計訓練方案 99
421 連續時間擴散模型的訓練 99
422 擴散過程的設計與選擇 100
423 擴散模型建模目標與訓練方式的選擇 102
43 如何選擇擴散模型的類型 104
44 代碼實戰 105
參考文獻 106
第 5 章 擴展:多任務泛化 108
51 離線元強化學習 108
52 MetaDiffuser 108
521 面向任務的上下文編碼器 109
522 條件擴散模型架構 110
523 雙引導增強規劃器 111
參考文獻 112
第 6 章 擴展:世界模型建模 113
61 世界模型簡介 113
62 基於 RNN 的世界模型 114
621 論文“World Models” 114
622 DreamerV3 115
63 基於 Transformer 的世界模型 122
631 IRIS 122
632 TWM 124
633 STORM 124
64 基於擴散模型的世界模型 126
641 擴散範式的最佳實踐126
642 實驗結果 129
參考文獻 132
第 7 章 反轉:用強化學習來優化擴散模型 133
71 引言 133
72 DDPO :將去噪過程建模為序列決策過程 133
721 將擴散模型建模為多步 MDP 135
722 策略梯度估計 136
723 各種獎勵模型下的采樣表現 136
73 Diffusion-DPO :運用於擴散模型的直接偏好優化 139
731 從 RLHF 到 DPO 140
732 將 RLHF 用於文本圖像對齊 141
733 將 DPO 用於文本圖像對齊 142
734 將 DPO 用於擴散模型優化 143
735 文本圖像對齊實驗 145
736 從強化學習角度推導 Diffusion-DPO 147
74 DRaFT :通過可微分獎勵函數直接優化擴散模型 149
741 DRaFT 149
742 DRaFT-K 150
743 DRaFT-LV 151
744 實驗結果 151
75 代碼實戰 152
參考文獻 157
第 8 章 擴展:擴散模型在決策問題上的新進展 158
81 基於生成模型的強化學習策略 158
82 決策基模型中的擴散模型 161
821 ViNT 162
822 NoMaD 166
823 SuSIE 170
83 總結與展望 177
參考文獻 177
