預測分析 : Python 語言實現

約瑟夫·巴布科克 (Joseph Babcock)

買這商品的人也買了...

商品描述

本書著重介紹預測性分析技術,先概述了數據分析系統的基本架構和主要處理流程,然後從分類和無監督學習開始,逐一講解每種機器學習算法的工作原理,並在每一章的後給出了詳細的案例討論。高質量的數據是能夠進行正確分析的前提,為了便於後期分析模型的構建,本書還會介紹對於不同類型數據的清洗和過濾等內容。通過學習本書的內容,讀者將瞭解將原始數據轉化為重要結論的過程,並掌握快速將其中涉及的模型應用到自有數據中的方法。

作者簡介

約瑟夫 巴布科克(Joseph Babcock),現為AQR Capital Management機器學習研究員,之前曾是Netflix不錯數據科學家。他有近10年的複雜數據集研究經驗,解決了來自醫療健康和娛樂行業的眾多大數據挑戰。他畢業於美國約翰-霍普金斯大學醫學院,獲得了該校所羅門-斯奈德神經系統學科的博士學位,在該校就讀期間,他運用機器學習預測了毒品對心臟方面的副作用

目錄大綱

目錄

譯者序
關於審稿人

前言

第1章數據轉換成決策——從分析應用著手
1.1設計高級分析方案
1.1.1數據層:數據倉庫、數據湖和數據流
1.1.2模型層
1.1.3部署層
1.1.4報告層
1.2案例學習:社交媒體數據的情感分析
1.2.1數據輸入和轉換
1.2.2合理性檢查
1.2.3模型開發
1.2.4評分
1.2.5可視化和報告
1.3案例學習:針對性電子郵件活動
1.3.1數據輸入和轉換
1.3.2合理性檢查
1.3.3模型開發
1.3.4評分
1.3.5可視化和報告
1.4總結

第2章Python數據分析和可視化初探
2.1在IPython中探索分類和數值型數據
2.1.1安裝IPython notebook 
2.1.2notebook的界面
2.1.3加載和檢視數據
2.1.4基本操作——分組、過濾、映射以及透視
2.1.5用Matplotlib繪製圖表
2.2時間序列分析
2.2.1清洗和轉換
2.2.2時間序列診斷 
2.2.3連接信號和相關性 
2.3操作地理數據
2.3.1加載地理數據
2.3.2工作在雲上
2.4PySpark簡介
2.4.1創建SparkContext 
2.4.2創建RDD 
2.4.3創建Spark DataFrame 
2.4總結

第3章在噪聲中探求模式——聚類和無監督學習
3.1相似性和距離度量
3.1.1數值距離度量
3.1.2相關相似性度量和時間序列
3.1.3分類數據的相似性度量
3.1.4k均值聚類
3.2近鄰傳播算法——自動選擇聚類數量
3.3k中心點算法
3.4凝聚聚類算法
3.5Spark中的數據流聚類 
3.6總結

第4章從點到模型——回歸方法
4.1線性回歸
4.1.1數據準備
4.1.2模型擬合和評價
4.1.3回歸輸出的顯著性差異
4.1.4廣義估計方程
4.1.5混合效應模型
4.1.6時間序列數據
4.1.7廣義線性模型
4.1 .8線性模型的正則化
4.2樹方法
4.2.1決策樹
4.2.2隨機森林
4.3利用PySpark進一步擴展——預測歌曲的發行年份
4.4總結

第5章數據分類——分類方法和分析
5.1邏輯回歸
5.1. 1多分類邏輯分類器:多元回歸
5.1.2分類問題中的數據格式化
5.1.3基於隨機梯度下降法的學習逐點更新
5.1.4使用二階方法聯合優化所有參數
5.2擬合模型
5.3評估 類模型 
5.4通過支持向量機分離非線性邊界
5.4.1人口普查數據的擬合和SVM 
5.4.2Boosting:組合小模型以改善準確度
5.4.3梯度提升決策樹
5.5分類方法比較
5.6案例學習:在PySpark中擬合分類器模型
5.7總結

第6章詞語和像素——非結構化數據分析
6.1文本數據分析 
6.1.1文本數據清洗
6.1.2從文本數據中提取特徵
6.1.3利用降維來簡化數據集
6.2主分量分析
6.2.1隱含狄利克雷分佈
6.2.2在預測模型中使用降維
6.3圖像
6.3.1圖像數據清洗
6.3.2利用圖像閾值來突出顯示對象
6.3.3圖像分析中的降維
6.4案例學習:在PySpark中訓練一個推薦系統
6.5總結

第7章自底向上學習——深度網絡和無監督特徵
7.1使用神經網絡學習模式
7.1.1單一感知器構成的網絡
7.1.2感知器組合— —一個單層神經網絡
7.1.3反向傳播的參數擬合
7.1.4判別式模型與生成式模型
7.1.5梯度消失及“解去” 
7.1.6預訓練信念網絡(貝葉斯網絡)
7 .1.7使用dropout來正則化網絡
7.1.8卷積網絡和糾正單元
7.1.9利用自編碼網絡壓縮數據
7.1.10優化學習速率
7.2TensorFlow庫與數字識別
7.2.1MNIST數據
7.2.2構建網絡
7.3總結

第8章利用預測服務共享模型
8.1預測服務的架構
8.2客戶端和發出請求
8.2.1GET請求
8.2.2POST請求
8.2.3HEAD請求
8.2.4PUT請求
8.2.5DELETE請求
8.3服務器——Web流量控制器
8.4利用數據庫系統持久化存儲信息
8.5案例學習——邏輯回歸服務
8.5.1建立數據庫
8.5.2Web服務器
8.5.3Web應用
8.6總結 

第9章報告和測試——分析型系統迭代
9.1利用診斷檢查模型的健康度
9.1.1評估模型性能的變化
9.1.2特徵重要性的變化 
9.1.3無監督模型性能的變化
9.2通過A/B測試對模型進行迭代
9.2.1實驗分配——將客戶分配給實驗
9.2.2決定樣本大小
9.2.3多重假設檢驗
9.3溝通指南
9.3.1將術語轉換為業務價值
9.3.2可視化結果
9.3.3報告服務器
9.3.4報告應用
9.3.5可視化層
9.4總結