數據挖掘 : 商業數據分析技術與實踐 (Data Mining for Business Analytics: Concepts, Techniques, and Applications with JMP Pro)

蓋麗特·徐茉莉 (Galit Shmueli), 等

買這商品的人也買了...

相關主題

商品描述

本書採用SAS公司的統計軟件包JMP Pro進行實踐性應用,使用引人入勝的實際案例來構建關鍵數據挖掘方法(尤其是分類和預測的預測模型)的理論及其實踐理解。本書所討論的主題包括數據可視化、降維、聚類、線性和邏輯回歸、分類和回歸樹、判別分析、樸素貝葉斯、人工神經網絡、增量模型、集成算法以及時間序列預測等。

海報:

作者簡介

作者:蓋麗特.徐茉莉
蓋麗特.徐茉莉博士是中國台灣清華大學服務科學研究所的特聘教授。自2004年以來,她在馬里蘭大學、Statistics.com、印度商學院和中國台灣清華大學設計並指導了數據挖掘課程。徐茉莉教授以她在商業分析領域的研究和教學而聞名,她的研究方向是在信息系統和醫療保健方面的統計和數據挖掘方法。她撰寫了70篇期刊文章、書籍、教材和圖書章節,包括Wiley出版的《商業數據挖掘:概念、技術和應用程序XLMiner(第三版)》。

彼得.布魯斯是統計教育研究所的創始人。他撰寫了多篇期刊文章,並且是重採樣統計軟件的開發者。他是《統計分析導論:基於重採樣角度》一書的作者以及《商業數據挖掘:概念、技術和應用程序XLMiner(第三版)》的合著者之一。

米婭·斯蒂芬斯是SAS/JMP的學術顧問。在加入SAS公司之前,她曾是新罕布什爾大學的統計學兼職教授,也是North Haven Group有限責任公司(一家統計培訓和諮詢公司)的創始成員。同時是另外三本書的合著者,包括由Wiley出版的《六西格瑪可視化:更精益化的數據分析(第二版)》。

尼廷·帕特爾博士是位於馬薩諸塞州劍橋市的Cytel有限公司的聯合創始人,美國統計協會會士,同時也是麻省理工學院和哈佛大學的客座教授。他是印度計算機學會會士,並在印度管理學院艾哈邁德巴德分校擔任15年教授工作。他也是Wiley出版的《商業數據挖掘:概念、技術和應用程序XLMiner(第三版)》的合著者之一。

目錄大綱

第一部分預備知識

1導論002 

1.1什麼是商業分析?002 

1.2什麼是數據挖掘?004 

1.3數據挖掘及相關用語004 

1.4大數據005 

1.5數據科學006 

1.6為什麼會有這麼多不同的方法?007 

1.7術語和符號007 

1.8本書框架009 

2數據挖掘概述·013 

2.1引言013 

2.2數據挖掘的核心思想014 

2.3數據挖掘步驟016 

2.4初步步驟018 

2.5預測能力和過擬合024 

2.6用JMP Pro建立預測模型029 

2.7用JMP Pro進行數據挖掘036 

2.8自動化數據挖掘解決方案037 

第二部分數據探索與降維

3數據可視化046 

3.1數據可視化的用途046 
3.2數據實例047 
3.3基本圖形:條形圖、折線圖和散點圖049 
3.4多維可視化056 
3.5特殊可視化068 
3.6基於數據挖掘目標的主要可視化方案和操作概要072 
4降維076 

4.1引言076
4.2維度災難077 
4.3實際考慮077 
4.4數據匯總078 
4.5相關分析082 
4.6減少分類變量中的類別數量082 
4.7將分類型變量轉換為連續型變量084 
4.8主成分分析084 
4.9利用回歸模型降維094 
4.10利用分類和回歸樹降維094 
第三部分性能評估

5評估預測效果·098 

5.1引言098 
5.2評價預測性能099 

5.3評判分類效果101 

5.4評判分類性能112 

5.5過採樣115 

第四部分預測與分類方法

6多元線性回歸·122 

6.1引言122 

6.2解釋模型與預測模型123 

6.3估計回歸方程和預測124 

6.4線性回歸中的變量選擇129 

7 k近鄰法142 

7.1 k-NN分類(分類型結果變量)142 

7.2數值型結果變量下的k-NN方法·147 

7.3 k-NN算法的優點和缺點149 

8樸素貝葉斯分類器153 

8.1引言153 

8.2使用完全(精確)貝葉斯分類器155 

8.3樸素貝葉斯方法的優點和缺點163

9分類和回歸樹·168 

9.1引言168 

9.2分類樹169 

9.3生成樹172 

9.4評估分類樹的效果176 

9.5避免過擬合178 


9.6樹中的分類準則181 

9.7多分類的分類樹182 

9.8回歸樹182 

9.9樹的優點和缺點184 

9.10預測方法的提高:組合多棵樹186 

9.11不純度的提取和度量188 

10邏輯回歸193 

10.1引言·193 

10.2邏輯回歸模型·195 

10.3評價分類性能·202 

10.4完整分析案例:預測航班延誤·205 

10.5附錄:邏輯回歸的概括·214 

11神經網絡225 

11.1引言·225 

11.2神經網絡的概念和結構·226 

11.3擬合數據·226 

11.4 JMP Pro用戶輸入·240 

11.5探索預測變量和響應變量的關係·242 

11.6神經網絡的優點和缺陷·243 

12判別分析247 

12.1引言·247 

12.2觀測值到類的距離·249 

12.3從距離到傾向和分類·251

12.4判別分析的分類性能·254 

12.5先驗概率·255 

12.6多類別分類·256 

12.7優點和缺點·258 


13組合方法:集成算法和增量模型263 

13.1集成算法·263 

13.2增量(說服)模型· 268 

13.3總結·274 

第五部分挖掘記錄之間的關係

14聚類分析280 

14.1引言·280 

14.2定義兩個觀測值之間的距離·284 

14.3定義兩個類之間的距離·288 

14.4系統(凝聚)聚類·290 

14.5非系統聚類:k-means算法·299 

第六部分時間序列預測

15時間序列處理·310 

15.1引言·310 

15.2描述性與預測性建模·311 

15.3商業中的主流預測方法·312 

15.4時間序列的構成·312 

15.5數據分割和性能評價·316 

16回歸預測模型·321 

16.1趨勢模型·321 

16.2季節模型·327 

16.3趨勢和季節模型·330 


16.4自相關和ARIMA模型331 

17平滑法·350

17.1引言·350 

17.2移動平均法·351 

17.3簡單指數平滑法·355 

17.4高級指數平滑法·358 

第七部分案例

18案例·372 

18.1查爾斯圖書俱樂部·372 

18.2德國信貸·378 

18.3太古軟件編目·382 

18.4政治說教·385 

18.5出租車訂單取消·388 

18.6浴皂的消費者細分·390 

18.7直郵籌款·393 

18.8破產預測·395 

18.9時間序列案例:預測公共交通需求·398