人工智能數學基礎

廖盛斌

  • 出版商: 電子工業
  • 出版日期: 2023-09-01
  • 定價: $468
  • 售價: 8.5$398
  • 語言: 簡體中文
  • 頁數: 240
  • ISBN: 7121463075
  • ISBN-13: 9787121463075
  • 相關分類: Machine Learning
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

本書共分為七章。第一章主要介紹數學對應人工智能的重要性,以及代數學和分析學中的基礎概念,是後面各章的基礎。第二章和第三章分別介紹了微積分和線性代數核心內容,並將相關基礎知識映射到人工智能領域,從這一視角理解數學基礎知識的工程應用。第四章介紹了矩陣分解這一重要數學工具及其在人工智能領域的典型應用。第五章介紹了概率論基礎知識及在人工智能領域的廣泛應用。第六章介紹了最優化理論及算法,以及它們在機器學習和人工智能中的基礎性應用。第七章主要介紹了信息論的基本概念和在人工智能中常見的應用。

目錄大綱

第1章 代數學和分析學的基礎概念 1
1.1 人工智能需要數學的原因 1
1.2 向量與範數 1
1.2.1 向量和線性空間 1
1.2.2 向量的內積 2
1.2.3 向量的外積 3
1.2.4 向量的範數 4
1.3 矩陣的定義及其基本運算 7
1.3.1 矩陣的定義 7
1.3.2 矩陣的基本運算 7
1.3.3 逆矩陣 9
1.3.4 深入理解矩陣因子的幾何意義 10
1.4 行列式 12
1.4.1 行列式的定義 12
1.4.2 行列式的性質 13
1.4.3 行列式的幾何意義 15
1.5 函數的極限與連續性 16
1.5.1 函數的極限 16
1.5.2 函數的連續性 17
本章參考文獻 19
第2章 微積分的基礎概念 20
2.1 導數 20
2.1.1 導數、偏導數與方向導數 20
2.1.2 梯度、雅可比矩陣和黑塞矩陣 25
2.1.3 泰勒公式 27
2.1.4 機器學習中常見函數的導數 28
2.2 微分 30
2.2.1 微分的概述 30
2.2.2 微分中值定理 31
2.3 積分 35
2.3.1 不定積分 35
2.3.2 定積分 37
2.3.3 廣義積分 42
2.3.4 多重積分 47
2.4 常微分方程 53
2.4.1 常微分方程的概述 53
2.4.2 一階微分方程的概述 53
本章參考文獻 57
第3章 矩陣與線性變換 58
3.1 矩陣秩的概述 58
3.1.1 矩陣的初等變換 58
3.1.2 矩陣的秩 59
3.2 向量組的線性相關性 60
3.2.1 線性組合 60
3.2.2 向量組的秩 61
3.3 特徵值與特徵向量 62
3.3.1 特徵值與特徵向量的定義 62
3.3.2 特徵值與特徵向量的基本性質 63
3.3.3 相似矩陣與相似對角化 64
3.3.4 正交矩陣和對稱矩陣的對角化 67
3.4 線性空間 70
3.4.1 線性空間的相關定義 70
3.4.2 線性空間的基與維數 72
3.5 線性變換 75
3.5.1 基變換的定義 75
3.5.2 坐標變換的定義 76
3.5.3 線性變換的定義 76
3.6 內積空間 79
3.6.1 內積空間的定義 79
3.6.2 施密特正交化方法 80
3.6.3 標準正交基的常用性質 81
本章參考文獻 82
第4章 矩陣分解 83
4.1 矩陣的LU分解 83
4.1.1 矩陣LU分解的定義及本質 83
4.1.2 矩陣LU分解的條件 85
4.1.3 矩陣LU分解的擴展形式 87
4.1.4 利用矩陣的LU分解求解線性方程組Ax=b 88
4.2 矩陣的QR分解 89
4.2.1 矩陣QR分解的定義 89
4.2.2 利用施密特正交化方法進行矩陣的QR分解 90
4.3 矩陣的特徵值分解 93
4.3.1 矩陣特徵值分解的定義 93
4.3.2 矩陣特徵值分解的本質 94
4.3.3 矩陣特徵值分解的應用 95
4.4 矩陣的奇異值分解 97
4.4.1 矩陣奇異值分解的定義 97
4.4.2 矩陣奇異值分解的計算 98
4.4.3 矩陣奇異值分解的意義及逼近 99
4.4.4 矩陣奇異值分解的應用 100
本章參考文獻 106
第5章 最優化理論與算法 107
5.1 凸集與凸函數 107
5.1.1 凸集 107
5.1.2 凸函數 110
5.1.3 凸函數的判定 113
5.2 最優化問題與求解算法的一般形式 116
5.2.1 最優化問題及解的定義 116
5.2.2 優化算法的一般思路 117
5.2.3 可行方向與下降方向 120
5.3 最優性條件 121
5.3.1 無約束問題的最優性條件 121
5.3.2 約束問題的最優性條件 123
5.3.3 KKT條件 126
5.4 梯度下降法 129
5.4.1 最速下降方向 129
5.4.2 梯度下降算法 131
5.4.3 隨機梯度下降算法 132
5.5 牛頓法 133
5.5.1 牛頓法的定義 133
5.5.2 擬牛頓法的定義 135
5.6 優化算法在機器學習中的應用 141
5.6.1 優化算法求解機器學習問題的一般模式 141
5.6.2 支持向量機的動機與基本概念 142
5.6.3 線性可分支持向量機 143
5.6.4 軟間隔最大化 146
本章參考文獻 151
第6章 概率模型 153
6.1 隨機變量及其分佈 153
6.1.1 概率的基本概念 153
6.1.2 隨機變量 154
6.1.3 離散型隨機變量 156
6.1.4 連續型隨機變量 156
6.1.5 隨機變量的函數及其分佈 159
6.1.6 多維隨機變量及其分佈 161
6.1.7 條件概率與條件分佈 164
6.2 隨機變量的數字特徵 168
6.2.1 隨機變量的數學期望 169
6.2.2 方差 172
6.2.3 協方差與相關系數 174
6.2.4 方差和協方差在PCA中的應用舉例 176
6.3 極限理論 180
6.3.1 隨機變量的矩與切比雪夫不等式 180
6.3.2 大數定律 182
6.3.3 中心極限定理 186
6.4 機器學習中的參數估計 188
6.4.1 最大似然估計 189
6.4.2 最大後驗估計 191
6.4.3 貝葉斯最優分類器 193
6.4.4 貝葉斯估計 193
本章參考文獻 196
第7章 信息論的基礎概念 198
7.1 熵 198
7.1.1 熵的概念 198
7.1.2 聯合熵 200
7.1.3 條件熵 202
7.1.4 互信息 203
7.1.5 熵的性質 205
7.1.6 熵在機器學習中的應用 210
7.2 交叉熵與損失函數 219
7.2.1 交叉熵的定義 219
7.2.2 交叉熵的性質 220
7.2.3 概率分佈推斷 221
7.2.4 交叉熵損失函數 222
7.3 KL散度 224
7.3.1 KL散度的定義 224
7.3.2 從熵編碼的角度理解KL散度 226
7.3.3 KL散度的性質 227
7.3.4 KL散度在機器學習中的應用 228
本章參考文獻 230