大規模數據分析和建模(基於Spark與R) Mastering Spark with R: The Complete Guide to Large-Scale Analysis and Modeling

Javier Luraschi,Kevin Kuo,Edgar Ruiz 魏博譯

已過版

商品描述

如果你和大多數R語言用戶一樣,那你肯定喜歡統計學,也能夠深入理解統計學。
但是隨著組織內部不斷收集大量數據,添加Apache Spark這類工具就變得理所當然。
在本書中,數據科學家和使用大規模數據應用的專業人員會學到如何使用Spark和R解決大數據和大計算問題。
作者會展示如何將Spark和R結合起來進行大數據分析。
本書涵蓋相關的數據科學話題、聚類計算,以及高級用戶會感興趣的問題。
·在Apache Spark環境下,使用R來分析、探索、轉換、可視化數據。·
構建統計模型來提取信息並預測輸出,自動化生產級的工作流程。
·使用分佈式計算技術在多台機器上進行分析和建模。
·輕鬆使用Spark處理多個數據源和格式的大規模數據。·
學習其他用於大規模圖處理、地理空間分析和基因組學分析的建模框架。·
深入高級話題,包括定制轉換、實時數據處理和創建定制化Spark擴展。

作者簡介

Javier Luraschi

是大規模數據科學諸多庫的發明者,包括sparklyr、r2d3、pins和cloudml。


Kevin Kuo

構建了機器學習庫,並領導了Kasa AI的開放保險研究。

Edgar Ruiz

構建了企業級的數據解決方案工具,包括dbplot、tidypredict和modeldb。

目錄大綱

目錄
序言
前言
第1章引言
1.1概述
1.2 Hadoop
1.3 Spark
1.4 R
1.5 sparklyr
1.6小結

第2章開始
2.1概述
2.2預備操作
2.2.1安裝sparklyr
2.2.2安裝Spark
2.3連接
2.4使用Spark
2.4.1網絡接口
2.4.2分析
2.4.3建模
2.4.4數據
2.4.5擴展
2.4.6分佈式R
2.4.7流式數據
2.4.8日誌
2.5斷開連接
2.6使用RStudio
2.7資源
2.8小結

第3章分析
3.1概述
3.2數據導入
3.3數據整理
3.3.1內置函數
3.3.2相關性
3.4可視化
3.4.1使用ggplot2
3.4.2使用dbplot
3.5建模
3.6溝通
3.7小結

第4章建模
4.1概述
4.2探索性數據分析
4.3特徵工程
4.4監督式學習
4.4.1廣義線性回歸
4.4.2其他模型
4.5非監督式學習
4.5.1數據準備
4.5.2主題建模
4.6小結

第5章管道操作
5.1概述
……
第6章集群
第7章連接
第8章數據
第9章調試
第10章擴展
第11章分佈式R
第12章數據流
第13章社區貢獻
附錄A補充參考代碼