元分析:數據分析的共識方法與系統模式

[美] 史蒂文·西姆斯克(Steven Simske) 著

商品描述

大數據時代,快速分析數據並從中提取有效信息是所有數據科學家必須完成的任務。本書由分析領域的專家撰寫,面向所有對數據科學感興趣的讀者,既是初學者的必備入門指南,也可幫助不同行業的技術人員擴充工具庫,實現數據分析技能的快速提升。
元分析既是混合分析,也是關於分析的分析。本書既討論元方法,也講解常規的分析方法和分析系統,特別是提供了一系列詳盡的模式和方法,它們可用於任何基於機器學習的數據分析任務。通過學習這些方法,你至少能找到一種更為有效的模式,並且獲得優於傳統分析方法的整體系統行為。

通過閱讀本書,你將學習以下知識:
背景知識,涉及統計學、算法、機器學習和人工智能等方面,涵蓋回歸、聚類、馬爾可夫模型、熵、支持向量機、降維和神經網絡等概念,並演示瞭如何構建分別適用於二分類和一般情況的分類器。
真值獲取與真值估算,提出了打破傳統“訓練、驗證和測試”模式的新模式。
實驗設計與設計模式,前者包括數據歸一化、剪枝老化數據和系統之系統,後者包括累積響應模式、分析的優化和模型一致性模式。
分析系統的各個方面,包括靈敏度分析、大型系統工程、建模與擬合、同義詞-反義詞模式、強化-無效化模式以及系統設計的優化等,引入了射幸技術和專家系統技術等概念。
應用與挑戰,介紹元分析在機器翻譯、機器人技術、醫學和金融等領域的廣泛應用,並暢想了元分析的未來。

作者簡介

史蒂文·西姆斯克(Steven Simske)
博士,機器智能與分析領域專家,擁有超過25年的行業經驗。
他是HP Fellow,曾任HP副總裁和HP實驗室主管(1994~2018)。
他是IS&T Fellow,曾任主席(2017~2019)。
此外,他還曾擔任ACM DocEng研討會指導委員會主席,以及世界經濟論壇全球議程理事會成員。
他於2018年加入科羅拉多州立大學,擔任系統與機械工程教授。
目前,他已發表論文450餘篇,擁有超過200項美國專利。

目錄大綱

譯者序
致謝
第1章 概述和應用1
1.1 引言1
1.2 本書為什麽重要2
1.3 本書的組織結構3
1.4 信息學3
1.5 分析統計學4
1.5.1 值和方差4
1.5.2 樣本和總體檢驗5
1.5.3 回歸和估計7
1.6 分析算法12
1.6.1 k均值和k近鄰聚類12
1.6.2 反聚類14
1.6.3 馬爾可夫模型14
1.7 機器學習16
1.7.1 熵16
1.7.2 支持向量機和核函數18
1.7.3 概率18
1.7.4 降維和信息增益20
1.7.5 優化和搜索21
1.7.6 數據挖掘和知識發現22
1.7.7 識別23
1.7.8 集成學習24
1.8 人工智能25
1.8.1 遺傳算法26
1.8.2 神經網絡30
1.8.3 免疫算法35
1.9 一個從頭開始構建分類器的平臺(二分類)37
1.10 一個從頭開始構建分類器的平臺(一般情況)43
1.10.1 訓練和驗證43
1.10.2 測試和部署49
1.10.3 比較訓練和測試數據集上的結果62
1.11 本章小結63
參考文獻64
擴展閱讀64
第2章 獲取真值65
2.1 引言65
2.2 預驗證66
2.3 根據訓練數據優化設置72
2.4 學習如何學習76
2.5 從深度學習到深度反學習82
2.6 本章小結82
參考文獻83
第3章 實驗設計85
3.1 引言85
3.2 數據歸一化86
3.2.1 簡單的歸一化86
3.2.2 偏差歸一化87
3.2.3 歸一化和實驗設計表90
3.3 剪枝老化數據的設計91
3.4 系統之系統93
3.4.1 系統93
3.4.2 混合系統94
3.4.3 動態更新的系統95
3.4.4 接口95
3.4.5 增益95
3.4.6 領域歸一化97
3.4.7 靈敏度分析98
3.5 本章小結99
參考文獻99
第4章 元分析設計模式100
4.1 引言100
4.2 累積響應模式101
4.2.1 識別感興趣的區域102
4.2.2 面向序列相關的預測性選擇的感興趣的區域104
4.2.3 傳統的累積增益曲線105
4.3 分析的優化111
4.3.1 決策樹111
4.3.2 假定身份觸發模式112
4.3.3 期望最大化和最大-最小模式113
4.4 模型一致性模式116
4.4.1 混合回歸117
4.4.2 建模和模型擬合117
4.5 共現和相似性模式118
4.6 靈敏度分析模式119
4.7 混淆矩陣模式120
4.8 熵模式121
4.9 獨立模式124
4.10 功能式NLP模式(宏觀反饋)127
4.11 本章小結127
參考文獻129
第5章 靈敏度分析和大型系統工程130
5.1 引言130
5.2 數據集本身的靈敏度分析132
5.3 解決方案模型的靈敏度分析135
5.4 單個算法的靈敏度分析136
5.5 混合算法的靈敏度分析137
5.6 到當前狀態的路徑的靈敏度分析138
5.7 本章小結140
參考文獻141
第6章 多面預測性選擇142
6.1 引言142
6.2 預測性選擇142
6.3 預測方法143
6.4 選擇方法144
6.5 多路徑方法149
6.6 應用151
6.7 靈敏度分析151
6.8 本章小結151
參考文獻152
第7章 建模和模型擬合153
7.1 引言153
7.2 用於分析的化學類比154
7.3 用於分析的有機化學類比156
7.4 用於分析的免疫學和生物學類比157
7.5 用於模型設計和擬合的匿名化類比159
7.6 最小平方誤差、誤差方差和熵:擬合優度159
7.7 創建屬於自己的多個模型160
7.8 本章小結161
參考文獻161
第8章 同義詞-反義詞模式和強化-無效化模式162
8.1 引言162
8.2 同義詞-反義詞模式163
8.3 強化-無效化模式164
8.4 各種模式的廣泛適用性167
8.5 本章小結167
參考文獻168
擴展閱讀168
第9章 關於分析的分析169
9.1 引言169
9.2 關於分析的分析170
9.2.1 熵與出現向量170
9.2.2 功能指標173
9.2.3 期望最大化方法174
9.2.4 系統設計的註意事項175
9.3 根據訓練數據優化設置175
9.4 混合方法176
9.5 關於分析的其他探索領域177
9.6 本章小結178
參考文獻178
擴展閱讀179
第10章 系統設計優化180
10.1 引言180
10.1.1 系統考量—重新審視系統增益181
10.1.2 系統增益—重新審視和擴大系統偏差182
10.1.3 投資與回報185
10.2 模塊優化185
10.3 聚類與正則化186
10.3.1 平方和正則化189
10.3.2 方差正則化189
10.3.3 簇大小正則化190
10.3.4 小型簇正則化191
10.3.5 簇數量正則化191
10.3.6 對正則化方法的討論192
10.4 分析系統的優化192
10.5 本章小結193
參考文獻193
第11章 射幸技術和專家系統技術194
11.1 引言194
11.2 兩種射幸模式回顧195
11.2.1 特徵射幸模式的依次移除195
11.2.2 特徵輸出射幸模式的時序變化198
11.3 為測試添加隨機元素199
11.4 高光譜射幸方法201
11.5 機器學習和統計學習中的其他射幸應用202
11.6 專家系統技術202
11.7 本章小結202
參考文獻203
擴展閱讀203
第12章 應用一:機器翻譯、機器人技術和生物科學中的主題及挑戰204
12.1 引言204
12.2 機器翻譯205
12.3 機器人技術207
12.4 生物科學210
12.5 本章小結212
參考文獻212
第13章 應用二:醫學及醫療信息學、經濟學、商業和金融214
13.1 引言214
13.2 醫療215
13.3 經濟學216
13.4 商業和金融218
13.5 本章小結220
13.6 附言:心理學221
參考文獻222
第14章 探討、總結和數據的未來223
14.1 關於第1章的探討和總結223
14.2 關於第2章的探討和總結224
14.3 關於第3章的探討和總結224
14.4 關於第4章的探討和總結225
14.5 關於第5章的探討和總結226
14.6 關於第6章的探討和總結226
14.7 關於第7章的探討和總結226
14.8 關於第8章的探討和總結227
14.9 關於第9章的探討和總結227
14.10 關於第10章的探討和總結227
14.11 關於第11章的探討和總結228
14.12 關於第12章的探討和總結228
14.13 關於第13章的探討和總結229
14.14 元分析的未來229
中英文術語對照表230