數據科學與大數據分析數據的發現分析可視化與表示 数据科学与大数据分析:数据的发现 分析 可视化与表示

美國EMC教育服務團隊 (EMC Education Services)

買這商品的人也買了...

商品描述

<內容簡介>

數據科學與大數據分析在當前是炙手可熱的概念,關註的是如何通過分析海量數據來洞悉隱藏於數據背後的見解。本書是數據科學領域為數不多的實用性技術圖書,它通過詳細剖析數據分析生命週期的各個階段來講解用於發現、分析、可視化、表示數據的相關方法和技術。
《數據科學與大數據分析——數據的發現分析可視化與表示》總共分為12章,主要內容包括大數據分析的簡單介紹,數據分析生命週期的各個階段,使用R語言進行基本的數據分析,以及高級的分析理論和方法,主要涉及數據的聚類、關聯規則、回歸、分類、時間序列分析、文本分析等方法。此外,本書還涵蓋了用來進行高級數據分析所使用的技術和工具,比如MapReduce和Hadoop、數據庫內分析等。
《數據科學與大數據分析——數據的發現分析可視化與表示》內容詳細,示例豐富,側重於理論與練習的結合,因此比較適合對大數據分析、數據科學感興趣的人員閱讀,有志於成為數據科學家的讀者也可以從本書中獲益。

<目錄>
第1章大數據分析介紹1

1.1大數據概述2

1.1.1數據結構4

1.1.2數據存儲的分析視角9

1.2分析的實踐狀態10

1.2.1商業智能VS數據科學11

1.2.2當前分析架構12

1.2.3大數據的驅動力14

1.2.4新的大數據生態系統和新的分析方法15

1.3新的大數據生態系統中的關鍵角色17

1.4大數據分析案例20

1.5總結21

1.6練習21

參考書目21

第2章數據分析生命週期23

2.1數據分析生命週期概述24

2.1.1一個成功分析項目的關鍵角色24

2.1.2數據分析生命週期的背景和概述26

2.2第1階段:發現28

2.2.1學習業務領域29

2.2.2資源29

2.2.3設定問題30

2.2.4確定關鍵利益相關者30

2.2.5採訪分析發起人31

2.2.6形成初始假設32

2.2.7明確潛在數據源32

2.3第2階段:數據準備33

2.3.1準備分析沙箱34

2.3.2執 ​​行ETLT 35

2.3.3研究數據36

2.3.4數據治理37

2.3.5調查和可視化37

2.3.6數據準備階段的常用工具38

2.4第3階段:模型規劃39

2.4.1數據探索和變量選擇40

2.4.2模型的選擇41

2.4.3模型設計階段的常用工具42

2.5第4階段:模型建立42

2.5.1模型構建階段中的常用工具44

2.6第5階段:溝通結果45

2.7第6階段:實施46

2.8案例研究:全球創新網絡和分析(GINA) 49

2.8.1第1階段:發現50

2.8.2第2階段:數據準備51

2.8. 3第3階段:模型規劃51

2.8.4第4階段:模型建立51

2.8.5第5階段:溝通結果53

2.8.6第6階段:實施54

2.9總結55

2.10練習55

參考書目55

第3章使用R進行基本數據分析57

3.1 R簡介58

3.1.1 R圖形用戶界面61

3.1.2數據導入和導出63

3.1.3屬性和數據類型64

3.1.4描述性統計(descriptive statistics) 72

3.2探索性數據分析73

3.2.1在分析之前先可視化74

3.2.2臟數據77

3.2.3可視化單個變量80

3.2.4研究多個變量83

3.2.5對比數據探索和數據演示90

3.3用於評估的統計方法92

3.3 .1假設檢驗93

3.3.2均值差異94

3.3.3 Wilcoxon秩和檢驗98

3.3.4 I型和II型錯誤99

3.3.5功效和抽樣大小100

3.3.6 ANOVA 100

3.4總結104

3.5練習104

參考文獻105

第4章高級分析理論與方法:聚類107

4.1聚類概述108

4.2 k均值聚類108

4.2.1使用案例109

4.2.2方法概述110

4.2.3確定聚類簇的數量112

4.2.4診斷117

4.2.5選擇原因及註意事項118

4.3其他算法122

4.4總結122

4.5練習123

參考書目123

第5章高級分析理論與方法:關聯規則124

5.1概述125

5.2 Apriori算法127

5.3評估候選規則128

5.4關聯規則的應用129

5.5雜貨店交易示例130

5.5.1雜貨店數據集130

5.5.2生成頻繁數據集132

5.5.3規則的生成和可視化137

5.6驗證和測試143

5.7診斷143

5.8總結144

5.9練習144

參考書目145

第6章高級分析理論與方法:回歸147

6.1線性回歸148

6.1.1用例148

6.1.2模型描述149

6.1.3診斷158

6.2邏輯回歸163

6.2.1用例163

6.2.2模型描述163

6.2.3診斷165

6.3選擇理由和註意事項172

6.4其他回歸模型173

6.5總結173

6.6練習174

第7章高級分析理論與方法:分類175

7.1決策樹176

7.1.1決策樹概覽177

7.1.2通用算法181

7.1. 3決策樹算法185

7.1.4評估決策樹186

7.1.5 R中的決策樹189

7.2樸素貝葉斯193

7.2.1貝葉斯定理194

7.2.2樸素貝葉斯分類器196

7.2.3平滑198

7.2.4診斷198

7.2.5 R中的樸素貝葉斯199

7.3分類器診斷204

7.4其他分類方法208

7.5總結209

7.6練習210

參考書目210

第8章高級分析理論與方法:時間序列分析212

8.1時間序列分析概述213

8.1.1 Box-Jenkins方法214

8.2 ARIMA模型215

8.2.1自相關函數(ACF) 215

8.2.2自回歸模型216

8.2.3移動平均模型218

8.2.4 ARMA和ARIMA模型219

8.2. 5建立和評估ARIMA模型222

8.2.6選擇理由及註意事項230

8.3其他方法230

8.4總結231

8.5練習231

第9章高級分析理論與方法:文本分析232

9.1文本分析步驟234

9.2一個文本分析的示例235

9.3收集原始數據237

9.4表示文本240

9.5詞頻-逆文檔頻率(TFIDF) 245

9.6通過主題來分類文件249

9.7情感分析253

9.8獲得洞察力258

9.9總結263

9.10練習263

參考書目264

第10章高級分析技術與工具:MapReduce和Hadoop 267

10.1非結構化數據分析268

10.1.1用例268

10.1.2 MapReduce 270

10.1.3 Apache Hadoop 271

10.2 Hadoop生態系統277

10.2.1 Pig 278

10.2.2 Hive 279

10.2.3 HBase 282

10.2.4 Mahout 290

10.3 NoSQL 292

10.4總結293

10.5練習294

參考書目294

第11章高級分析技術與工具:數據庫內分析297

11.1 SQL基本要素298

11.1.1連接299

11.1.2 set運算符301

11.1.3 grouping擴展303

11.2數據庫內的文本分析307

11.3高級SQL技術311

11.3.1窗口函數311

11.3.2用戶定義函數與聚合315

11.3.3排序聚合318

11.3.4 MABlib 319

11.4總結323

11.5練習323

參考書目323

第12章結尾324

12.1溝通和實施一個分析項目325

12.2創建最終可交付成果327

12.2.1為多個受眾群體創建核心材料329

12.2.2項目目標330

12.2.3主要發現331

12.2.4方法333

12.2 .5模型描述334

12.2.6有數據支持的關鍵論點335

12.2.7模型細節336

12.2.8建議337

12.2.9關於最終演示文檔的額外提示338

12.2.10提供技術規範和代碼339

12.3數據可視化基礎340

12.3.1有數據支持的要點341

12.3.2圖的演進342

12.3.3通用表示方法348

12.3.4如何清理圖形349

12.3.5額外考慮353

12.4總結355

12.5練習355

12.6參考文獻與擴展閱讀355

參考書目356