Effective數據科學基礎設施 Effective Data Science Infrastructure: How to Make Data Scientists Productive

[芬] 維萊·圖洛斯（Ville Tuulos）著郭濤譯

預覽內頁

出版商: 清華大學
出版日期: 2023-08-01
售價: $588
貴賓價: 9.5 折 $559
語言: 簡體中文
頁數: 277
裝訂: 平裝
ISBN: 7302641862
ISBN-13: 9787302641865
相關分類: Data Science
此書翻譯自: Effective Data Science Infrastructure: How to Make Data Scientists Productive

立即出貨 (庫存 < 4)

買這商品的人也買了...

~~$594~~ $564

深入理解 XGBoost：高效機器學習算法與進階
~~$534~~ $507

深入淺出圖神經網絡：GNN 原理解析
~~$780~~ $616

社群網站的資料探勘, 3/e (Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More, 3/e)
$403

會話式AI：自然語言處理與人機交互
~~$780~~ $616

自然語言處理最佳實務｜全面建構真正的 NLP 系統 (Practical Natural Language Processing: A Comprehensive Guide to Building Real-World Nlp Systems)
~~$1,000~~ $790

Kaggle 競賽攻頂秘笈 -- 揭開 Grandmaster 的特徵工程心法，掌握制勝的關鍵技術
~~$680~~ $537

從程式員到 AI 專家｜寫給程式員的人工智慧與機器學習指南 (AI and Machine Learning for Coders: A Programmer's Guide to Artificial Intelligence)
~~$654~~ $621

高效使用 Greenplum：入門、進階與數據中台
~~$588~~ $559

AWS 解決方案架構師學習與備考 (第3版·SAA-C02)
$602

Knative 最佳實踐
~~$779~~ $740

Rust 實戰
~~$650~~ $507

和艦長一起 30 天玩轉 GitLab【第二版】（iT邦幫忙鐵人賽系列書）
~~$714~~ $678

使用 GitOps 實現 Kubernetes 的持續部署：模式、流程及工具
~~$594~~ $564

Apache Pulsar 原理解析與應用實踐
~~$594~~ $564

Doris 實時數倉實戰
$505

分佈式數據庫系統
~~$828~~ $787

Istio最佳實戰
~~$620~~ $484

SRE 實踐與開發平台指南：從團隊協作、原則、架構和趨勢掌握全局，做出精準決策
~~$479~~ $455

Python 統計機器學習
~~$820~~ $648

決戰！微前端架構 Micro Frontends：新一代可擴展的網頁開發模式，實現各種框架的無縫整合與溝通
~~$479~~ $455

框架領導力如何讓想法、團隊和行動更成功原書第6版
~~$594~~ $564

分佈式數據庫系統原理（第4版）

商品描述

"數據科學項目日益增多，每個項目在提出原型到生產的過程中都需要可靠的基礎設施。使用《Effective數據科學基礎設施》介紹的一些新技術和新工具，你將能建立一個適用於各類組織(無論是初創企業還是大型企業)的基礎設施堆棧。《Effective數據科學基礎設施》可幫助你建立數據流程和項目工作流，為你開發項目帶來強大動力。《Effective數據科學基礎設施》呈現Netflix數據操作的**進工具和概念，並在此基礎上介紹一種可定製的基於雲的模型開發和MLOps方法，可輕松適應公司的特定需求。當團隊把數據科學和機器學習應用於廣泛的業務問題時，這些實用的數據流程將更高效地生成更完美的結果。主要內容 ● 在雲中處理計算和編排 ● 將基於雲的工具耦合到一個內聚的數據科學環境中 ● 使用Metaflow、AWS和Python數據生態系統開發可復制的數據科學項目 ● 構建需要大型數據集和模型，需要數據科學家團隊參與的復雜應用程序"

目錄大綱

第1章數據科學基礎設施介紹 1

1.1 選擇數據科學基礎設施的原因 2

1.2 什麽是數據科學基礎設施 5

1.2.1 數據科學基礎設施堆棧 6

1.2.2 支持數據科學項目的整個生命周期 8

1.2.3 不能以偏概全 9

1.3 良好基礎設施的重要性 10

1.3.1 管理復雜性 11

1.3.2 利用現有平臺 12

1.4 以人為中心的基礎設施 13

1.4.1 自由與責任 14

1.4.2 數據科學家自主性 15

1.5 本章小結 16

第2章數據科學的工具鏈 17

2.1 建立開發環境 18

2.1.1 雲賬戶 21

2.1.2 數據科學工作站 22

2.1.3 筆記 24

2.1.4 歸納 27

2.2 介紹工作流 29

2.2.1 工作流基礎 30

2.2.2 執行工作流 31

2.2.3 工作流框架 33

2.3 本章小結 35

第3章 Metaflow簡介 37

3.1 Metaflow的基本概念 38

3.1.1 安裝Metaflow 39

3.1.2 編寫基本工作流 40

3.1.3 管理工作流中的數據流 44

3.1.4 參數 50

3.2 分支和合並 55

3.2.1 有效的DAG結構 56

3.2.2 靜態分支 57

3.2.3 動態分支 61

3.2.4 控制並發 64

3.3 Metaflow實際應用 66

3.3.1 啟動新項目 67

3.3.2 使用客戶端API訪問結果 69

3.3.3 調試故障 72

3.3.4 最後潤色 76

3.4 本章小結 79

第4章隨計算層伸縮 81

4.1 什麽是可伸縮性 82

4.1.1 整個堆棧的可伸縮性 83

4.1.2 實驗文化 85

4.2 計算層 87

4.2.1 使用容器進行批處理 89

4.2.2 計算層示例 92

4.3 Metaflow中的計算層 98

4.3.1 為Metaflow配置AWS批處理 100

4.3.2 @batch和@resources裝飾器 104

4.4 處理故障 107

4.4.1 使用@retry從瞬態錯誤中恢復 109

4.4.2 使用@timeout殺死僵屍 110

4.4.3 最後一種裝飾器：@catch 111

4.5 本章小結 113

第5章實踐可伸縮性和性能 115

5.1 從簡單開始：垂直可伸縮性 116

5.1.1 示例：聚類Yelp評論 117

5.1.2 實踐垂直可伸縮性 119

5.1.3 為什麽選擇垂直可

伸縮性 124

5.2 實踐水平可伸縮性 126

5.2.1 為什麽選擇水平可伸縮性 126

5.2.2 示例：超參數搜索 127

5.3 實施性能優化 130

5.3.1 示例：計算共現矩陣 131

5.3.2 加快工作流的方法 139

5.4 本章小結 140

第6章投入生產 141

6.1 穩定的工作流調度 143

6.1.1 中心化元數據 145

6.1.2 使用AWS Step Functions和Metaflow 147

6.1.3 使用@schedule調度運行 152

6.2 魯棒的執行環境 153

6.2.1 Metaflow包如何流動 155

6.2.2 為什麽依賴管理很重要 160

6.2.3 使用@conda裝飾器 162

6.3 穩定運行 167

6.3.1 原型開發期間的命名空間 169

6.3.2 生產命名空間 173

6.3.3 使用@project的並行部署 174

6.4 本章小結 177

第7章處理數據 179

7.1 快速數據的基礎 182

7.1.1 從S3加載數據 183

7.1.2 使用表格數據 188

7.1.3 內存數據堆棧 192

7.2 與數據基礎設施的交互 194

7.2.1 現代數據基礎設施 195

7.2.2 用SQL準備數據集 199

7.2.3 分佈式數據處理 205

7.3 從數據到特徵 210

7.3.1 區分事實和特徵 211

7.3.2 編碼特徵 213

7.4 本章小結 218

第8章使用和操作模型 221

8.1 生成預測 223

8.1.1 批處理、流式和實時預測 225

8.1.2 示例：推薦系統 227

8.1.3 批處理預測 232

8.1.4 實時預測 243

8.2 本章小結 248

第9章全棧機器學習 249

9.1 可插拔的特徵編碼器和模型 250

9.1.1 為可插拔的組件開發框架 251

9.1.2 執行特徵編碼器 255

9.1.3 基準模型 259

9.2 深度回歸模型 264

9.2.1 編碼輸入張量 266

9.2.2 定義深度回歸模型 269

9.2.3 訓練深度回歸模型 272

9.3 總結所學 275

9.4 本章小結 277

附錄安裝Conda 279

Effective數據科學基礎設施 Effective Data Science Infrastructure: How to Make Data Scientists Productive

[芬] 維萊·圖洛斯（Ville Tuulos）著 郭濤 譯

買這商品的人也買了...

商品描述

目錄大綱

類似商品

[芬] 維萊·圖洛斯（Ville Tuulos）著郭濤譯