實用預測分析 实用预测分析

[美]拉爾夫·溫特斯(Ralph Winters)

買這商品的人也買了...

商品描述

本書詳細講述了預測分析的原理、技術及實現,並深入討論了大數據。
重點著眼於掌握提高開發、實行預測分析所需的6項關鍵實用技能。
本書還提供了來自市場、醫療和零售等行業的真實案例,
有助於讀者針對產品實現自己的預測分析。

作者簡介

Ralph Winters
目前在一家醫療服務公司擔任數據架構師。
他已經給很多名列世界500強的大企業提供過自己在統計和分析方面的經驗,
包括金融、市場營銷、保險、醫療和製藥領域的企業。
他的工作包括很多不同類型的預測分析項目,包括客戶保留、
反洗錢、客戶之聲文本挖掘分析,以及醫療風險和客戶選擇模型。

目錄大綱

譯者序
關於作者
關於審校者
前言
第1章預測分析入門1 
1.1許多行業中都有預測分析2 
1.1.1市場營銷中的預測分析2 
1.1.2醫療中的預測分析2 
1.1.3其他行業中的預測分析3 
1.2技能和角色在預測分析中都很重要3 
1.3預測分析軟件4 
1.3.1開源軟件5 
1.3.2閉源軟件5 
1.3.3和平共處5 
1.4其他有用的工具5 
1.4 .1超越基礎知識6 
1.4.2數據分析/研究6 
1.4.3數據工程6 
1.4.4管理7 
1.4.5數據科學團隊7 
1.4.6看待預測分析的兩種不同方式7 
1.5R 8 
1.5.1CRAN 8 
1.5.2安裝R語言8 
1.5.3其他安裝R語言的方法8 
1.6預測分析項目是如何組織的9 
1.7圖形用戶界面10 
1.8RStudio入門11 
1.8.1重新佈局以保持和示例一致11 
1.8.2部分重要面板的簡要描述12
1.8.3創建新項目13 
1.9R語言控制台14 
1.10源代碼窗口15 
1.11第一個預測模型16 
1.12第二個腳本18 
1.12.1代碼描述19 
1.12.2predict函數20 
1.12.3檢驗預測誤差21 
1.13 R語言包22 
1.13.1stargazer包22 
1.13.2安裝stargazer包23 
1.13.3保存工作24 
1.14參考資料24 
1.15本章小結24 

第2章建模過程25 
2.1結構化方法的優點25 
2.2分析過程方法26 
2.2.1CRISP -DM和SEMMA 27 
2.2.2CRISP-DM和SEMMA的圖表27 
2.2.3敏捷過程28 
2.2.4六西格瑪和根本原因28 
2.2.5是否需要數據抽樣28 
2.2.6使用所有數據29 
2.2.7比較樣本與群體29 
2.3第一步:理解業務30 
2.4第二步:理解數據36 
2.4.1衡量尺度36 
2.4.2單變量分析38 
2.5第三步:數據準備43 
2.6第四步:建模44
2.6.1具體模型說明45 
2.6.2邏輯回歸46 
2.6.3支持向量機47 
2.6.4決策樹47 
2.6.5降維技術51 
2.6.6主成分51 
2.6.7聚類52 
2.6.8時間序列模型52 
2.6.9樸素貝葉斯分類器53 
2.6.10文本挖掘技術54 
2.7第五步:評估57 
2.7.1模型驗證58 
2.7.2曲線下面積59 
2.7.3樣本內和样本外測試、前進測試60 
2.7.4訓練/測試/驗證數據集60 
2.7.5時間序列驗證61 
2.7.6最佳冠軍模型的基準測試61 
2.7.7專家意見:人與機器61 
2.7.8元分析61 
2.7.9飛鏢板方法61 
2.8第六步:部署62 
2.9參考資料62 
2.10本章小結62 

第3章輸入和探索數據64 
3.1數據輸入64 
3.1.1文本文件輸入65 
3.1.2數據庫表格66 
3.1.3電子表格文件67 
3.1.4XML和JSON數據67 
3.1.5生成你自己的數據68
3.1.6處理大型文件的技巧68 
3.1.7數據整理68 
3.2連接數據69 
3.2.1使用sqldf函數69 
3.2.2生成數據70 
3.2.3檢查元數據71 
3.2.4使用內部連接和外部連接來合併數據72 
3.2.5識別有多個購買記錄的成員73 
3.2.6清除冗餘記錄74 
3.3探索醫院數據集74 
3.3.1str(df)函數的輸出74 
3.3.2View函數的輸出75 
3.3.3colnames函數75 
3.3.4summary函數76 
3.3.5在瀏覽器中打開文件77 
3.3.6繪製分佈圖77 
3.3.7變量的可視化繪圖78 
3.4轉置數據幀80 
3.5缺失值84 
3.5.1建立缺失值測試數據集84 
3.5.2缺失值的不同類型85 
3.5.3糾正缺失值87 
3.5.4使用替換過的值運行回歸90 
3.6替換分類變量91 
3.7異常值91 
3.7.1異常值為什麼重要91 
3.7.2探測異常值92 
3.8數據轉換96 
3.8.1生成測試數據97
3.8.2Box-Cox轉換97 
3.9變量化簡/變量重要性98 
3.9.1主成分分析法98 
3.9.2全子集回歸102 
3.9.3變量重要性104 
3.10參考資料106 
3.11本章小結106 

第4章回歸算法導論107 
4.1監督學習模型和無監督學習模型108 
4.1.1監督學習模型108 
4.1.2無監督學習模型108 
4.2回歸技術109 
4.3廣義線性模型110 
4.4邏輯回歸110 
4.4.1比率111 
4.4.2邏輯回歸係數111 
4.4.3示例:在醫療中使用邏輯回歸來預測疼痛閾值112 
4.4.4GLM模型擬合114 
4.4.5檢驗殘差項115 
4.4.6添加變量的分佈圖116 
4.4.7p值及其效應量117 
4.4.8p值及其影響範圍118 
4.4.9變量選擇119 
4.4.10交互121 
4.4.11擬合優度統計量123 
4.4.12置信區間和Wald統計124 
4.4.13基本回歸診斷圖124 
4.4.14分佈圖類型描述124
4.4.15擬合優度:Hosmer-Lemeshow檢驗126 
4.4.16正則化127 
4.4.17示例:ElasticNet 128 
4.4.18選擇一個正確的Lambda 128 
4.4.19基於Lambda輸出可能的係數129 
4.5本章小結130 

第5章決策樹、聚類和SVM導論131 
5.1決策樹算法131 
5.1.1決策樹的優點131 
5.1.2決策樹的缺點132 
5.1.3決策樹的基本概念132 
5.1.4擴展樹132 
5.1.5不純度133 
5.1.6控制樹的增長134 
5.1.7決策樹算法的類型134 
5.1.8檢查目標變量135 
5.1.9在rpart模型中使用公式符號135 
5.1.10圖的解釋136 
5.1.11輸出決策樹的文本版本137 
5.1.12修剪138 
5.1.13渲染決策樹的其他選項139 
5.2聚類分析140 
5.2.1聚類分析應用於多種行業140 
5.2.2什麼是聚類140 
5.2.3聚類的類型141
5.2.4k均值聚類算