關鍵迭代:可信賴的線上對照實驗 Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing

Ron Kohavi,Diane Tang,Ya Xu

買這商品的人也買了...

商品描述

|  內 容 概 覽  |
獲得數據很容易,獲得可信賴的數據卻很困難。由微軟、谷歌和領英的實驗領導者編寫的這本實用指南將教你如何使用可信賴的線上對照實驗(也就是A/B測試)加速創新。根據每家公司每年運行的兩萬多個對照實驗,作者以示例和建議的方式向學生和業內人士分享了自己的實踐經驗,指出了需要避免的陷阱,並深入探討了一些進階專題,可以為希望改善自身及機構數據驅動決策方式的從業者提供參考。
|  本 書 介 紹  |
● 使用科學方法通過對照實驗評估假設。
● 定義關鍵指標(理想情況下制定綜合評估標準)。
● 測試結果的可信賴度,並對違反的假設給出警示。
● 基於結果快速解讀和迭代。
● 實施護欄指標以保護關鍵業務目標。
● 建立可擴展的平臺,將實驗的邊際成本降低到接近零。
● 避免諸如延滯效應、特威曼定律、辛普森悖論以及網絡交
  互之類的陷阱。
● 理解統計問題在實踐中的作用,包括違背假設的常見情況。

作者簡介

羅恩·科哈維(Ron Kohavi)是愛彼迎的副總裁和技術院士,曾任微軟的技術研究員和公司副總裁。
在加入微軟之前,他是亞馬遜的數據挖掘和個性化推薦總監。
他擁有斯坦福大學計算機科學博士學位,論文被引用超過40000次,其中有3篇位列計算機科學領域引用最多的1000篇論文榜。


黛安·唐(Diane Tang)是谷歌院士,大規模數據分析和基礎設施、線上對照實驗及廣告系統方面的專家。
她擁有哈佛大學的文學學士學位和斯坦福大學的碩士及博士學位,在移動網絡、信息可視化、實驗方法、數據基礎設施、數據挖掘和大數據方面擁有專利和出版物。


許亞(Ya Xu)是領英數據科學與實驗平台負責人,曾撰寫了多篇關於實驗的論文,並經常在頂級會議和大學演講。
她曾在微軟工作,擁有斯坦福大學的統計學博士學位。

目錄大綱

本書贊譽
譯者序
前言——如何閱讀本書
致謝

第一部分 線上對照實驗概覽

第1章 概述和寫作動機003
1.1 線上對照實驗的術語005
1.2 為什麽進行實驗?相關性、因果關系和可信賴度008
1.3 有效運行對照實驗的必要元素010
1.4 宗旨011
1.5 隨時間推移的改進013
1.6 有趣的線上對照實驗實例015
1.7 戰略、戰術及它們和實驗的關系020
1.8 補充閱讀 023

第2章 運行和分析實驗——一個全程剖析的案例025
2.1 設立實驗025
2.2 假設檢驗:確立統計顯著性028
2.3 設計實驗030
2.4 運行實驗並獲得數據032
2.5 分析結果033
2.6 從結果到決策034

第3章 特威曼定律與實驗的可信賴度037
3.1 曲解統計結果038
3.2 置信區間041
3.3 對內部有效性的威脅041
3.4 對外部有效性的威脅046
3.5 細分群的差異049
3.6 辛普森悖論 052
3.7 鼓勵健康的懷疑態度054

第4章 實驗平臺和文化055
4.1 實驗成熟度模型055
4.2 基礎設施和工具062

第二部分 基礎原理

第5章 速度很重要:一個全程案例剖析075
5.1 關鍵假設:局部線性近似077
5.2 如何測量網站的性能078
5.3 減速實驗的設計080
5.4 對不同頁面元素的影響是不同的081
5.5 極端結果083

第6章 機構指標085
6.1 指標的分類086
6.2 指標的制定:原則和技術089
6.3 指標的評估091
6.4 指標的演變092
6.5 更多的資源093
6.6 補充材料:護欄指標093
6.7 補充材料:可操縱性095

第7章 實驗指標和綜合評估標準097
7.1 從業務指標到適用於實驗的指標098
7.2 將關鍵指標組合成一個OEC099
7.3 案例:亞馬遜電子郵件的OEC101
7.4 案例:必應搜索引擎的OEC103
7.5 Goodhart法則、Campbell法則以及Lucas批判104

第8章 機構的經驗傳承與統合分析107
8.1 什麽是機構的經驗傳承107
8.2 為什麽機構的經驗傳承有用108

第9章 對照實驗中的倫理111
9.1 背景111
9.2 數據收集116
9.3 文化與流程117
9.4 補充材料:用戶標識符117

第三部分 補充及替代技法

第10章 補充技法121
10.1 補充技法的空間121
10.2 基於日誌的分析122
10.3 人工評估124
10.4 用戶體驗調研125
10.5 焦點小組125
10.6 問捲調查126
10.7 外部數據127
10.8 總結129

第11章 觀察性因果研究131
11.1 對照實驗不可行的情況131
11.2 觀察性因果研究的設計133
11.3 陷阱138
11.4 補充材料:被駁斥的觀察性因果研究141

第四部分 實驗平臺搭建

第12章 客戶端實驗145
12.1 服務器端和客戶端的差異145
12.2 對實驗的潛在影響148
12.3 結論152

第13章 工具化日誌記錄153
13.1 客戶端與服務器端的工具化日誌記錄153
13.2 處理多源的日誌155
13.3 工具化日誌記錄的文化156

第14章 選擇隨機化單元157
14.1 隨機化單元和分析單元159
14.2 用戶級別的隨機化160

第15章 實驗放量:權衡速度、質量與風險163
15.1 什麽是放量163
15.2 SQR放量框架164
15.3 四個放量階段165
15.4 最終放量之後168

第16章 規模化實驗分析169
16.1 數據處理169
16.2 數據計算170
16.3 結果匯總和可視化172

第五部分 實驗分析

第17章 線上對照實驗中的統計學知識177
17.1 雙樣本t檢驗177
17.2 p值和置信區間178
17.3 正態性假設179
17.4 第一/二型錯誤和統計功效181
17.5 偏差183
17.6 多重檢驗183
17.7 費舍爾統合分析184

第18章 方差估計和提高靈敏度:陷阱及解決方法185
18.1 常見陷阱186
18.2 提高靈敏度189
18.3 其他統計量的方差190

第19章 A/A測試193
19.1 為什麽運行A/A測試193
19.2 如何運行A/A測試198
19.3 A/A測試失敗時199

第20章 以觸發來提高實驗靈敏度201
20.1 觸發示例201
20.2 數值示例204
20.3 最佳的和保守的觸發205
20.4 總體實驗效應206
20.5 可信賴的觸發207
20.6 常見的陷阱207
20.7 開放性問題209

第21章 樣本比率不匹配與其他可信度相關的護欄指標211
21.1 樣本比率不匹配212
21.2 調試SRM214

第22章 實驗變體之間的泄露和乾擾219
22.1 示例220
22.2 一些實際的解決方案223
22.3 檢測和監控乾擾227

第23章 測量實驗的長期效應229
23.1 什麽是長期效應229
23.2 短期效應和長期效應可能不同的原因230
23.3 為什麽要測量長期效應232
23.4 長期運行的實驗233
23.5 長期運行實驗的替代方法235

參考文獻241
索引261