基於雲計算的數據科學 Data Science on the Google Cloud Platform: Implementing End-to-End Real-Time Data Pipelines: From Ingest to Machine Learning

Valliappa Lakshmanan 馬睿

立即出貨 (庫存 < 4)

買這商品的人也買了...

相關主題

商品描述

本書將帶領你了解如何使用Google雲計算平台,輕鬆構建複雜的統計和機器學習解決方案,解決實際業務問題。
本書作為一本動手指南,為開發人員展示瞭如何在數據科學領域實現端到端的數據管道,
以及如何在Google雲計算平台上使用統計和機器學習的方法和工具。
通過閱讀本書,你將學習多種數據科學方法,並使用這些方法在示例項目上製定業務決策。
隨後,你就可以在Google雲計算平台上針對自己的項目構建統計和機器學習解決方案了,
同時探索該平台為數據科學提供的更多革命性和協作特性。
在本書中,你將學到: 使用App Engine應用實現自動化定期數據攝取。
在Google Data Studio中創建並生成數據儀表板。
構建實時數據分析管道,實現流式數據分析。
使用Google BigQuery實現可交互式數據探索。
在Cloud Dataproc群集上創建貝葉斯模型。
使用Spark構建邏輯回歸機器學習模型。
使用Cloud Dataflow數據管道計算時間聚合特徵。
使用TensorFlow構建高性能預測模型。
將你的模型部署為微服務,並且從批處理和實時數據管道中使用它。

作者簡介

Valliappa Lakshmanan

是Google雲計算平台專家服務部門的技術主管。
他希望將機器學習普及化,讓任何人、從任何地方,在無需深入了解統計學、編程知識,
也無需購買大量硬件的情況下使用Google雲平台提供的卓越架構。

目錄大綱

目錄
前言
第1章用數據做出更好的決策
許多相似的決策
數據工程師的角色
雲計算讓數據工程師成為可能
雲計算使數據科學能力得到倍增
用案例研究揭示難解的真相
基於概率的決策
數據和工具
代碼入門
本章總結

第2章將數據攝取到雲端
航空公司準點數據
可知性
訓練-服務偏差
下載程序
數據集屬性
為什麼不就地存儲數據?
向上擴展
水平擴展
使用Colossus和Jupiter讓數據存放在原位
攝取數據
對Web表單進行反向工程
下載數據集
數據探索和清理
將數據上傳到Google雲端存儲
每月下載計劃
使用Python攝取數據
Flask Web App
在App Engine上運行
確保URL的安全
計劃Cron任務
本章總結
代碼實驗

第3章創建引人注目的儀表板
使用數據儀表闆對模型進行解釋
為什麼要先構建數據儀表板?
準確、忠實於數據且良好的設計
將數據加載到Google Cloud SQL
創建Google Cloud SQL實例
與Google雲計算平台交互
控制對MySQL的訪問
創建表
向表中填充數據
建立第一個模型
應急表
閾值優化
機器學習
構建數據儀表板
Data Studio入門
創建圖表
為最終用戶添加控件
用餅圖顯示所佔比例
解釋應急表
本章總結

第4章流數據:發布和攝取
第5章交互式數據探索
第6章Cloud Dataproc上的貝葉斯分類器
第7章機器學習:Spark上的邏輯回歸
第8章時間窗化的聚合特徵
第9章使用TensorFlow的機器學習分類器
第10章實時機器學習
附錄有關機器學習數據集中敏感數據的注意事項