精通 Spark 數據科學

Name: 精通 Spark 數據科學
Price: 327 TWD
Availability: InStock
Author: [美]安德魯·摩根（Andrew Morgan）
ISBN: 7115541566

[美]安德魯·摩根（Andrew Morgan）

預覽內頁

出版商: 人民郵電
出版日期: 2020-09-01
定價: $654
售價: 5.0 折 $327
語言: 簡體中文
頁數: 430
ISBN: 7115541566
ISBN-13: 9787115541567
相關分類: Spark、Data-mining
此書翻譯自: Mastering Spark for Data Science

立即出貨 (庫存=1)

買這商品的人也買了...

~~$280~~ $252

數位廣播接收機之原理及實作
~~$530~~ $477

自動飛行控制－原理與實務, 3/e
~~$580~~ $568

商業智慧與大數據分析, 3/e
$300

構建實時機器學習系統
$534

Kafka 並不難學！入門、進階、商業實戰
~~$880~~ $695

Spark 技術手冊｜輕鬆寫意處理大數據 (Spark: The Definitive Guide｜Big Data Processing Made Simple)
~~$600~~ $468

邁向 Linux 工程師之路：Superuser 一定要懂的技術與運用, 2/e (How Linux Works: What Every Superuser Should Know, 2/e)
$300

PySpark 機器學習、自然語言處理與推薦系統 (Machine Learning with PySpark: With Natural Language Processing and Recommender Systems)
~~$980~~ $774

史上最完整細節：Kubernetes 超應用全書
$534

超大流量分佈式系統架構解決方案：人人都是架構師2.0
$237

實時數據處理和分析指南
~~$780~~ $702

東京大學資料科學家養成全書：使用 Python 動手學習資料分析
~~$780~~ $616

你也能做出 Google：用 Elasticsearch 搭建叢集搜索引擎
~~$680~~ $537

架構模式｜使用 Python (Architecture Patterns with Python: Enabling Test-Driven Development, Domain-Driven Design, and Event-Driven Microservices)
$402

基於完全互補序列的 MIMO 雷達與 5G MIMO 通信
~~$550~~ $467

實戰 VMware vSphere 7 部署與管理
~~$680~~ $578

超前部署企業雲非懂不可 -- 最強圖解虛擬化，openstack 企業雲一日即成
~~$980~~ $774

資料密集型應用系統設計 (Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems)
~~$680~~ $530

編寫程式的邏輯：如何用物件導向實作複雜的業務需求
~~$600~~ $468

Ubuntu 20 管理入門與實作
~~$1,200~~ $948

NoSQL 開發完美方案：Redis + Docker 高性能虛擬化實戰
~~$680~~ $537

資料科學家的實用統計學 : 運用 R 和 Python 學習 50+個必學統計概念, 2/e (Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python, 2/e)
~~$980~~ $774

深入淺出 C# : 運用 C# 和 .Net Core 編寫真正的程式, 4/e (Head First C#: A Learner's Guide to Real-World Programming with C#, Xaml, and .Net, 4/e)
$703

5G 通道編解碼：算法與實現

商品描述

Apache Spark是專為大規模數據處理而設計的快速通用的計算引擎。這是一本專門介紹Spark的圖書，旨在教會讀者利用Spark構建實用的數據科學解決方案。

本書內容包括14章，由淺入深地介紹了數據科學生態系統、數據獲取、輸入格式與模式、探索性數據分析、利用Spark進行地理分析、採集基於鏈接的外部數據、構建社區、構建推薦系統、新聞詞典和實時標記系統、故事除重和變遷、情感分析中的異常檢測、趨勢演算、數據保護和可擴展算法。

本書適合數據科學家以及對數據科學、機器學習感興趣的讀者閱讀，需要讀者具備數據科學相關的基礎知識，並通過閱讀本書進一步提升Spark運用能力，從而創建出高效且實用的數據科學解決方案。

作者簡介

安德魯·摩根（Andrew Morgan）是數據戰略及其執行方面的專家，在支持技術、系統架構和實現數據科學方面擁有豐富的經驗。他在數據行業擁有20多年的經驗，曾為一些久負盛名的公司及其全球客戶設計系統——通常是大型、復雜和國際性的項目。2013年，他創辦了數據科學和大數據工程咨詢公司ByteSumo，目前在與歐洲和美國的客戶進行合作。Andrew是一位活躍的數據科學家，也是趨勢演算（TrendCalculus）算法的發明者。該算法是他為自己的研究項目而開發的，該項目旨在研究基於機器學習的長期預測，這些預測可以在不斷變化的文化、地緣政治和經濟趨勢中發現規律。他還是Hadoop Summit EU數據科學委員會的成員，並在許多會議上就各種數據主題發表過演講。他也活躍於他的居住地倫敦的數據科學和大數據社區。

安托萬·阿門德（Antoine Amend）是一位對大數據工程和可擴展計算充滿熱情的數據科學家。這本書的主題是“折騰”天文數字量級的非結構化數據以獲得新的見解，這主要源於Antoine的理論物理學背景。他於2008年畢業並獲得天體物理學碩士學位。在Hadoop的早期階段，在大數據的概念普及之前，他曾在瑞士的一家大型咨詢公司工作。從那時起，他就開始接觸大數據技術。現在他在巴克萊銀行擔任網絡安全數據科學部門的主管。通過將科學方法與核心IT技能相結合，Antoine連續兩年獲得了在得克薩斯州奧斯汀舉行的大數據世界錦標賽決賽資格。他在2014年和2015年都名列前12位（超過2 000多名競爭對手），這兩次比賽中他還使用了本書介紹的方法和技術贏得了創新獎。

大衛·喬治（David George）是一位傑出的分佈式計算專家，擁有超過15年的數據系統從業經驗，主要服務於全球聞名的IT咨詢機構和品牌。他很早以前就開始使用Hadoop核心技術，並做過大規模的實施。David總是採用務實的方法進行軟件設計，並重視簡約中的優雅。

如今，他繼續作為首席工程師為金融行業客戶設計可擴展的應用，並滿足一些較為嚴苛的需求。他的新項目側重於採用先進的人工智能技術來提高知識產業的自動化水平。

馬修·哈利特（Matthew Hallett）是一名軟件工程師和電腦科學家，擁有超過15年的從業經驗。他是一名面向對象的“專家級程序員”和系統工程師，擁有豐富的底層編程範式知識。在過去的幾年裡，他在Hadoop和關鍵業務環境中的分佈式編程方面積累了豐富的專業知識，這些環境由數千節點的數據中心組成。Matthew在分佈式算法和分佈式計算體系結構的實施方面擁有多種語言的咨詢經驗，目前是“四大審計公司”數據科學與工程團隊的數據工程師顧問。

目錄大綱

第 1章　數據科學生態系統 1

1.1　大數據生態系統簡介　1

1.1.1　數據管理　2

1.1.2　數據管理職責　2

1.1.3　合適的工具　4

1.2　數據架構　4

1.2.1　數據採集　5

1.2.2　數據湖　6

1.2.3　數據科學平臺　7

1.2.4　數據訪問　8

1.3　數據處理技術　8

1.4　配套工具　10

1.4.1　Apache HDFS　10

1.4.2　亞馬遜S3　12

1.4.3　Apache Kafka　13

1.4.4　Apache Parquet　14

1.4.5　Apache Avro　15

1.4.6　Apache NiFi　16

1.4.7　Apache YARN　17

1.4.8　Apache Lucene　18

1.4.9　Kibana　19

1.4.10　Elasticsearch　20

1.4.11　Accumulo　21

1.5　小結　22

第 2章　數據獲取　23

2.1　數據管道　23

2.1.1　通用採集框架　24

2.1.2　GDELT數據集簡介　25

2.2　內容登記　32

2.2.1　選擇和更多選擇　32

2.2.2　隨流而行　32

2.2.3　元數據模型　33

2.2.4　Kibana儀表盤　35

2.3　質量保證　36

2.3.1　案例1——基本質量檢查，無爭用用戶　36

2.3.2　案例2——進階質量檢查，無爭用用戶　36

2.3.3　案例3——基本質量檢查，50%使用率爭用用戶　37

2.4　小結　37

第3章　輸入格式與模式　39

3.1　結構化的生活是美好的生活　40

3.2　GDELT維度建模　40

3.3　加載數據　48

3.3.1　模式敏捷性　49

3.3.2　GKG ELT　51

3.4　Avro　54

3.4.1　Spark-Avro方法　55

3.4.2　教學方法　57

3.4.3　何時執行Avro轉換　61

3.5　Apache Parquet　62

3.6　小結　63

第4章　探索性數據分析　64

4.1　問題、原則與規劃　65

4.1.1　理解EDA問題　65

4.1.2　設計原則　65

4.1.3　探索的總計劃　66

4.2　準備工作　67

4.2.1　基於掩碼的數據剖析簡介　67

4.2.2　字符類掩碼簡介　71

4.2.3　構建基於掩碼的剖析器　73

4.3　探索GDELT　86

4.4　小結　107

第5章　利用Spark進行地理分析　108

5.1　GDELT和石油　108

5.1.1　GDELT事件　109

5.1.2　GDELT GKG　110

5.2　制訂行動計劃　110

5.3　GeoMesa　111

5.3.1　安裝　112

5.3.2　GDELT採集　112

5.3.3　GeoMesa採集　113

5.3.4　GeoHash　117

5.3.5　GeoServer　120

5.4　計量油價　123

5.4.1　使用GeoMesa查詢API　123

5.4.2　數據準備　125

5.4.3　機器學習　130

5.4.4　樸素貝葉斯　131

5.4.5　結果　132

5.4.6　分析　133

5.5　小結　134

第6章　採集基於鏈接的外部數據　135

6.1　構建一個大規模的新聞掃描器　135

6.1.1　訪問Web內容　136

6.1.2　與Spark集成　138

6.1.3　創建可擴展的生產準備庫　139

6.2　命名實體識別　142

6.2.1　Scala庫　143

6.2.2　NLP攻略　143

6.2.3　構建可擴展代碼　146

6.3　GIS查詢　148

6.3.1　GeoNames數據集　148

6.3.2　構建高效的連接　149

6.3.3　內容除重　153

6.4　名字除重　154

6.4.1　用Scalaz進行函數式編程　155

6.4.2　簡單清洗　158

6.4.3　DoubleMetaphone算法　158

6.5　新聞索引儀表板　160

6.6　小結　162

第7章　構建社區　163

7.1　構建一個人物圖譜　163

7.1.1　聯系鏈　164

7.1.2　從Elasticsearch中提取數據　166

7.2　使用Accumulo數據庫　168

7.2.1　設置Accumulo　168

7.2.2　單元級安全　169

7.2.3　疊代器　170

7.2.4　從Elasticsearch到Accumulo　170

7.2.5　從Accumulo讀取　173

7.2.6　AccumuloGraphxInputFormat和EdgeWritable　175

7.2.7　構建圖　175

7.3　社區發現算法　177

7.3.1　Louvain算法　177

7.3.2　加權社區聚類　178

7.4　GDELT數據集　193

7.4.1　Bowie 效應　194

7.4.2　較小的社區　195

7.4.3　使用Accumulo單元級的安全性　196

7.5　小結　197

第8章　構建推薦系統　198

8.1　不同的方法　198

8.1.1　協同過濾　199

8.1.2　基於內容的過濾　199

8.1.3　自定義的方法　199

8.2　信息不完整的數據　200

8.2.1　處理字節　200

8.2.2　創建可擴展的代碼　203

8.2.3　從時域到頻域　204

8.3　構建歌曲分析器　209

8.4　構建一個推薦系統　214

8.4.1　PageRank算法　214

8.4.2　構建個性化的播放列表　217

8.5　擴大“蛋糕廠”規模　217

8.5.1　構建播放列表服務　217

8.5.2　應用Spark任務服務器　219

8.5.3　用戶界面　223

8.6　小結　224

第9章　新聞詞典和實時標記系統　226

9.1　土耳其機器人　226

9.1.1　人類智能任務　227

9.1.2　引導分類模型　227

9.1.3　懶惰、急躁、傲慢　233

9.2　設計Spark Streaming應用　234

9.2.1　兩個架構的故事　234

9.2.2　Lambda架構的價值　237

9.2.3　Kappa架構的價值　239

9.3　消費數據流　240

9.3.1　創建GDELT數據流　240

9.3.2　創建Twitter數據流　242

9.4　處理Twitter數據　243

9.4.1　提取URL和主題標簽　244

9.4.2　保存流行的主題標簽　245

9.4.3　擴展縮短的URL　246

9.5　獲取HTML內容　248

9.6　使用Elasticsearch作為緩存層　249

9.7　分類數據　252

9.7.1　訓練樸素貝葉斯模型　253

9.7.2　確保線程安全　254

9.7.3　預測GDELT數據　255

9.8　Twitter土耳其機器人　256

9.9　小結　258

第 10章　故事除重和變遷　260

10.1　檢測近似重復　260

10.1.1　從散列開始第一步　262

10.1.2　站在“因特網巨人”的肩膀上　263

10.1.3　檢測GDELT中的近似重復　266

10.1.4　索引GDELT數據庫　271

10.2　構建故事　275

10.2.1　構建詞頻向量　275

10.2.2　維度災難，數據科學之痛　277

10.2.3　優化KMeans　278

10.3　故事變遷　281

10.3.1　平衡態　281

10.3.2　隨時間追蹤故事　283

10.3.3　構建故事的關聯　290

10.4　小結　294

第 11章　情感分析中的異常檢測　295

11.1　在Twitter上追蹤美國大選　296

11.1.1　流式獲取數據　296

11.1.2　成批獲取數據　297

11.2　情感分析　300

11.2.1　格式化處理Twitter數據　300

11.2.2　使用斯坦福NLP　302

11.2.3　建立管道　304

11.3　使用Timely作為時間序列數據庫　306

11.3.1　存儲數據　306

11.3.2　使用Grafana可視化情感　309

11.4　Twitter與戈德溫（Godwin）點　311

11.4.1　學習環境　311

11.4.2　對模型進行可視化　314

11.4.3　Word2Graph和戈德溫點　315

11.5　進入檢測諷刺的一小步　320

11.5.1　構建特徵　320

11.5.2　檢測異常　324

11.6　小結　325

第 12章　趨勢演算　326

12.1　研究趨勢　327

12.2　趨勢演算算法　328

12.2.1　趨勢窗口　328

12.2.2　簡單趨勢　331

12.2.3　用戶定義聚合函數　332

12.2.4　簡單趨勢計算　337

12.2.5　反轉規則　339

12.2.6　FHLS條狀圖介紹　341

12.2.7　可視化數據　343

12.3　實際應用　351

12.3.1　算法特性　352

12.3.2　潛在的用例　352

12.4　小結　353

第 13章　數據保護　354

13.1　數據安全性　354

13.1.1　存在的問題　355

13.1.2　基本操作　355

13.2　認證和授權　356

13.3　訪問　358

13.4　加密　359

13.4.1　數據處於靜態時　359

13.4.2　數據處於傳輸時　368

13.4.3　混淆/匿名　369

13.4.4　遮罩　372

13.4.5　令牌化　375

13.5　數據處置　377

13.6　Kerberos認證　378

13.6.1　用例1：Apache Spark在受保護的HDFS中訪問數據　379

13.6.2　用例2：擴展到自動身份驗證　381

13.6.3　用例3：從Spark連接到安全數據庫　381

13.7　安全生態　383

13.7.1　Apache Sentry　383

13.7.2　RecordService　384

13.8　安全責任　385

13.9　小結　386

第 14章　可擴展算法　387

14.1　基本原則　387

14.2　Spark架構　390

14.2.1　Spark的歷史　390

14.2.2　動態組件　391

14.3　挑戰　395

14.3.1　算法復雜性　395

14.3.2　數值異常　395

14.3.3　洗牌　398

14.3.4　數據模式　398

14.4　規劃你的路線　399

14.5　設計模式和技術　409

14.5.1　Spark API　410

14.5.2　摘要模式　411

14.5.3　擴展並解決模式　411

14.5.4　輕量級洗牌　412

14.5.5　寬表模式　414

14.5.6　廣播變量模式　415

14.5.7　組合器模式　416

14.5.8　集群優化　420

14.5.9　再分配模式　422

14.5.10　加鹽鍵模式　423

14.5.11　二次排序模式　424

14.5.12　過濾過度模式　426

14.5.13　概率算法　426

14.5.14　選擇性緩存　427

14.5.15　垃圾回收　428

14.5.16　圖遍歷　429

14.6　小結　430