機器學習與大語言模型
顧小東
- 出版商: 上海交通大學
- 出版日期: 2026-04-01
- 售價: $528
- 語言: 簡體中文
- 頁數: 348
- ISBN: 7313343426
- ISBN-13: 9787313343420
-
相關分類:
Machine Learning、Large language model
下單後立即進貨 (約4週~6週)
商品描述
本教材是一部人工智能入門教材,內容涵蓋機器學習基礎、深度學習及大語言模型的前沿發展,並配以典型的實際應用案例。本書分為四個部分,共15章,系統地講解人工智能領域的核心知識和方法。 部分機器學習基礎,介紹人工智能和機器學習的基本概念、數學基礎,以及經典算法(如決策樹、樸素貝葉斯和邏輯回歸等)。第二部分深度學習,講解人工神經網絡、循環神經網絡、卷積神經網絡和Transformer模型,並深入探討這些模型在自然語言處理和計算機視覺中的典型應用。第三部分大語言模型,從預訓練模型的理論動機出發,剖析當下大語言模型的核心技術與 進展。第四部分生成式模型和強化學習,重點講解生成模型以及強化學習的關鍵概念和實踐應用。本書的特色在於以學術視角梳理機器學習及相關領域的知識體系,註重知識點的歷史脈絡與內在邏輯,展現知識演進的疊代過程。通過這樣的內容編排,啟發讀者從全局性和發展的視角理解智能技術的深層原理。本書不僅適合作為高校人工智能類課程的教材,還可作為人工智能領域技術人員的入門讀物,為學習者構建紮實的知識基礎。
作者簡介
顧小東,博士,上海交通大學軟件學院副教授,研究方向包括人工智能,大語言模型、智能化軟件工程。在人工智能和軟件工程 會議期刊發表論文30餘篇。
本教材是一部人工智能入門教材,內容涵蓋機器學習基礎、深度學習及大語言模型的前沿發展,並配以典型的實際應用案例。本書分為四個部分,共15章,系統地講解人工智能領域的核心知識和方法。 部分機器學習基礎,介紹人工智能和機器學習的基本概念、數學基礎,以及經典算法(如決策樹、樸素貝葉斯和邏輯回歸等)。第二部分深度學習,講解人工神經網絡、循環神經網絡、卷積神經網絡和Transformer模型,並深入探討這些模型在自然語言處理和計算機視覺中的典型應用。第三部分大語言模型,從預訓練模型的理論動機出發,剖析當下大語言模型的核心技術與 進展。第四部分生成式模型和強化學習,重點講解生成模型以及強化學習的關鍵概念和實踐應用。本書的特色在於以學術視角梳理機器學習及相關領域的知識體系,註重知識點的歷史脈絡與內在邏輯,展現知識演進的疊代過程。通過這樣的內容編排,啟發讀者從全局性和發展的視角理解智能技術的深層原理。本書不僅適合作為高校人工智能類課程的教材,還可作為人工智能領域技術人員的入門讀物,為學習者構建紮實的知識基礎。
目錄大綱
1 機器學習概述
1.1 從人工智能到機器學習
1.2 為什麼(Why)要用機器學習
1.3 機器學習是什麼(What)
1.4 如何(How)進行機器學習
1.5 機器學習算法概覽
1.6 學習還是記憶?探尋學習的邊界
1.7 敲一敲代碼
2 線性回歸
2.1 計算機科學中的回歸問題
2.2 線性回歸模型
2.3 線性回歸模型的矩陣形式
2.4 過擬合與正則化修正
2.5 敲一敲代碼
3 分而治之的藝術:決策樹
3.1 計算機科學中的分類問題
3.2 解決覆雜分類:分而治之
3.3 決策樹分類
3.4 典型的決策樹算法
3.5 決策樹的優缺點
3.6 隨機森林
3.7 敲一敲代碼
4 概率中的信念之變:貝葉斯分類
4.1 概率視角下的機器學習
4.2 貝葉斯決策規則
4.3 樸素貝葉斯分類
4.4 實例演示:樸素貝葉斯用於文本分類
4.5 樸素貝葉斯的優勢和劣勢
4.6 敲一敲代碼
5 “懶”學習的智慧:K近鄰
5.1 “懶”學習模式
5.2 有關於距離
5.3 算法流程
5.4 決策邊界
5.5 優勢和劣勢分析
6 線性中的抉擇:邏輯回歸
6.1 統一視角:分類問題的分離邊界
6.2 感知機與線性分類
6.3 從感知機到邏輯回歸:概率視角的突破
6.4 Softmax回歸:從二分類到多分類的擴展
6.5 敲一敲代碼
7 支持向量機
7.1 尋找“最好的”線性分類器
7.2 支持向量機的模型推導
7.3 模型結構
7.4 損失函數:合頁損失
7.5 采用梯度下降法優化SVM模型
7.6 敲一敲代碼
8 人工神經網絡
8.1 人工神經網絡的起源
8.2 多層感知機的直觀解釋
8.3 人工神經網絡的訓練
8.4 深度神經網絡
9 語言模型
9.1 語言的第一課:單詞表征
9.2 語言模型
9.3 神經網絡語言模型
10 Transformer模型
10.1 序列到序列學習
10.2 註意力機制:突破固定向量瓶頸的關鍵
10.3 自註意力機制
10.4 Transformer:從序列到序列的全面進化
11 大語言模型:智慧的湧現
11.1 預訓練範式的誕生
11.2 預訓練語言模型
11.3 BERT:基於編碼器的預訓練模型
11.4 GPT:生成式預訓練突破
11.5 大語言模型的使用範式
11.6 敲一敲代碼
12 卷積神經網絡
12.1 計算機如何“看”世界?
12.2 卷積神經網絡的基本原理
12.3 典型的卷積神經網絡架構
13 機器視覺:從識別到理解
13.1 圖像語義分割
13.2 目標檢測
13.3 多模態視覺任務的發展:從圖像註解到視覺Transformer
13.4 視覺大模型:視覺與語言的統一
14 聚類
14.1 什麼是聚類?
14.2 K-means聚類算法
14.3 敲一敲代碼
15 降維:從數據壓縮到特征發現
15.1 為什麼要做維度約簡
15.2 主成分分析
15.3 自編碼器:神經網絡的降維藝術
15.4 敲一敲代碼
16 生成式模型:從對抗到擴散
16.1 什麼是生成式模型
16.2 生成對抗網絡:一場偉大的博弈
16.3 GAN的變體與發展
16.4 變分自編碼器(VAE):另一種生成模型的哲學
16.5 擴散模型:從混沌中創造秩序的藝術
17 強化學習
17.1 通向智能的第三種路徑——交互中學習
17.2 強化學習問題設定:智能體與環境的交互
17.3 形式化建模:馬爾可夫決策過程(MDP)
17.4 Q-學習
17.5 深度Q-學習
17.6 策略梯度
17.7 更穩定的策略學習:Actor-Critic
17.8 近端策略優化(PPO)
17.9 強化學習實戰:AlphaGo與圍棋
17.10 走向通用人工智能:大語言模型與強化學習
參考文獻
