Python 貝葉斯分析, 2/e Bayesian Analysis with Python: Introduction to statistical modeling and probabilistic programming using PyMC3 and ArviZ, 2nd Edition

[阿根廷] 奧斯瓦爾多·馬丁(Osvaldo Martin) 譯 張天旭//黃雪菊

  • Python 貝葉斯分析, 2/e-preview-1
  • Python 貝葉斯分析, 2/e-preview-2
Python 貝葉斯分析, 2/e-preview-1

買這商品的人也買了...

商品描述

本書是一本概率編程的入門書。本書使用概率編程庫 PyMC3以及可視化庫 ArviZ對貝葉斯統計分析的相關知識進行講解,包括概率思維、概率編程、線性回歸建模、廣義線性模型、模型比較、混合模型、高斯過程以及推斷引擎等知識。全書圖文並茂,通俗易懂,適合具備一定 Python基礎的讀者學習使用。學完本書,讀者可以利用概率思維建立貝葉斯模型並解決自己的數據分析問題。

作者簡介

奥斯瓦尔多·马丁( Osvaldo Martin)是阿根廷国家科学与技术研究理事会(CONICET)的一名研究员。他曾从事蛋白质、多糖及 RNA分子等结构生物信息学方面的研究,此外,在应用马尔可夫链蒙特卡洛方法模拟分子动力学方向上有着丰富的经验,他喜欢用 Python解决数据分析中的问题。

他曾讲授结构生物信息学、数据科学以及贝叶斯数据分析相关的课程,在 2017年带头组建了阿根廷圣路易斯 PyData委员会。同时,他也是 PyMC3以及 ArviZ两个项目的核心开发者之一。

目錄大綱

第 1 章 概率思維 1

1.1 統計學、模型以及本書採用的方法 1

1.1.1 與數據打交道 2

1.1.2 貝葉斯建模 3

1.2 概率論 4

1.2.1 解釋概率 4

1.2.2 定義概率 6

1.3 單參數推斷 14

1.4 報告貝葉斯分析結果 23

1.4.1 模型表示和可視化 23

1.4.2 總結後驗 24

1.5 後驗預測檢查 26

1.6 總結 27

1.7 練習 28

第 2 章 概率編程 30

2.1 簡介 31

2.2 PyMC3 指南 32

2.3 總結後驗 34

2.4 隨處可見的高斯分佈 41

2.4.1 高斯推斷 41

2.4.2 魯棒推斷 46

2.5 組間比較 50

2.5.1 Cohen’s d 52

2.5.2 概率優勢 53

2.5.3 “小費”數據集 53

2.6 分層模型 57

2.6.1 收縮 60

2.6.2 額外的例子 63

2.7 總結 66

2.8 練習 67

第3 章 線性回歸建模 69

3.1 一元線性回歸 69

3.1.1 與機器學習的聯系 70

3.1.2 線性回歸模型的核心 71

3.1.3 線性模型與高自相關性 75

3.1.4 對後驗進行解釋和可視化 77

3.1.5 皮爾遜相關系數 80

3.2 魯棒線性回歸 84

3.3 分層線性回歸 87

3.4 多項式回歸 94

3.4.1 解釋多項式回歸的系數 96

3.4.2 多項式回歸——終極模型 97

3.5 多元線性回歸 97

3.5.1 混淆變量和多餘變量 101

3.5.2 多重共線性或相關性太高 104

3.5.3 隱藏效果變量 107

3.5.4 增加相互作用 109

3.5.5 變量的方差 110

3.6 總結 113

3.7 練習 114

第4 章 廣義線性模型 117

4.1 簡介 117

4.2 邏輯回歸 118

4.2.1 邏輯回歸模型 119

4.2.2 鳶尾花數據集 120

4.3 多元邏輯回歸 125

4.3.1 決策邊界 125

4.3.2 模型實現 126

4.3.3 解釋邏輯回歸的系數 127

4.3.4 處理相關變量 130

4.3.5 處理不平衡分類 131

4.3.6 softmax 回歸 133

4.3.7 判別式模型和生成式模式 135

4.4 泊松回歸 137

4.4.1 泊松分佈 137

4.4.2 零膨脹泊松模型 139

4.4.3 泊松回歸和ZIP 回歸 141

4.5 魯棒邏輯回歸 143

4.6 GLM 模型 144

4.7 總結 145

4.8 練習 146

第5 章 模型比較 148

5.1 後驗預測檢查 148

5.2 奧卡姆剃刀原理——簡單性和準確性 153

5.2.1 參數過多會導致過擬合 155

5.2.2 參數太少會導致欠擬合 156

5.2.3 簡單性與準確性之間的平衡 157

5.2.4 預測精度度量 157

5.3 信息準則 159

5.3.1 對數似然和偏差 159

5.3.2 赤池信息量準則 160

5.3.3 廣泛適用的信息準則 161

5.3.4 帕累托平滑重要性採樣留一法交叉驗證 161

5.3.5 其他信息準則 161

5.3.6 使用PyMC3 比較模型 162

5.3.7 模型平均 165

5.4 貝葉斯因子 168

5.4.1 一些討論 169

5.4.2 貝葉斯因子與信息準則 173

5.5 正則化先驗 176

5.6 深入WAIC 177

5.6.1 熵 178

5.6.2 KL 散度 180

5.7 總結 182

5.8 練習 183

第6 章 混合模型 185

6.1 簡介 185

6.2 有限混合模型 187

6.2.1 分類分佈 188

6.2.2 狄利克雷分佈 189

6.2.3 混合模型的不可辨識性 192

6.2.4 怎樣選擇K 194

6.2.5 混合模型與聚類 198

6.3 非有限混合模型 199

6.4 連續混合模型 206

6.4.1 貝塔-二項分佈和負二項分佈 207

6.4.2 t 分佈 207

6.5 總結 208

6.6 練習 209

第7 章 高斯過程 210

7.1 線性模型和非線性數據 210

7.2 建模函數 211

7.2.1 多元高斯函數 213

7.2.2 協方差函數與核函數 213

7.3 高斯過程回歸 217

7.4 空間自相關回歸 222

7.5 高斯過程分類 229

7.6 Cox 過程 235

7.6.1 煤礦災害 236

7.6.2 紅杉數據集 238

7.7 總結 241

7.8 練習 241

第8 章 推斷引擎 243

8.1 簡介 243

8.2 非馬爾可夫方法 245

8.2.1 網格計算 245

8.2.2 二次近似法 247

8.2.3 變分法 249

8.3 馬爾可夫方法 252

8.3.1 蒙特卡洛 253

8.3.2 馬爾可夫鏈 255

8.3.3 梅特羅波利斯- 黑斯廷斯算法 255

8.3.4 哈密頓蒙特卡洛 259

8.3.5 序貫蒙特卡洛 261

8.4 樣本診斷 263

8.4.1 收斂 264

8.4.2 蒙特卡洛誤差 268

8.4.3 自相關 268

8.4.4 有效樣本量 269

8.4.5 分歧 270

8.5 總結 273

8.6 練習 273

第9 章 拓展學習 274