Spark MLlib機器學習實踐 Spark MLlib机器学习实践

王曉華

出版商: 清華大學
出版日期: 2015-12-01
定價: $294
售價: 8.5 折 $249
語言: 簡體中文
頁數: 176
裝訂: 平裝
ISBN: 7302420424
ISBN-13: 9787302420422
相關分類: Spark

立即出貨 (庫存=1)

買這商品的人也買了...

~~$620~~ $527

C 語言教學手冊, 4/e
~~$860~~ $731

徹底研究 Java Web 開發實戰寶典 (JSP、Servlet、Struts、AJAX)
~~$390~~ $382

電子學實習 (下)
$354

Spark 大數據處理(技術應用與性能優化)
~~$380~~ $323

Big Data－驅動大企業的幕後推手 (Big Data: Understanding How Data Powers Big Business)
$195

Spark 大數據處理技術
~~$414~~ $393

MATLAB 神經網絡原理與實例精解
$294

Storm技術內幕與大數據實踐
$270

大數據技術原理與應用--概念存儲處理分析與應用
~~$780~~ $616

精通 Python｜運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)
$294

Spark 技術內幕 (深入解析Spark內核架構設計與實現原理)
~~$280~~ $218

7天學會 Git 版本控制 (Git Essentials)
$294

大數據智能—因特網時代的機器學習和自然語言處理技術
$300

Spark大資料分析實戰
$327

Spark核心技術與高級應用
~~$648~~ $615

機器學習
$202

深度學習：方法及應用
$594

基於R語言的自動資料收集：網絡抓取和文本挖掘實用指南 (Automated Data Collection with R)
$354

Python網絡數據採集
~~$680~~ $537

資料科學的商業運用 (Data science for business)
$237

Spark MLlib機器學習:算法、源碼及實戰詳解
~~$560~~ $437

Python 程式設計實務－從初學到活用 Python 開發技巧的16堂課
~~$500~~ $395

大數據分析 Excel Power BI 全方位應用
$229

Spark Cookbook (中文版)
~~$680~~ $537

優化 C++｜提高程式效能的有效技術 (Optimized C++: Proven Techniques for Heightened Performance)

商品描述

<內容簡介>

Spark作為新興的、應用範圍最為廣泛的大數據處理開源框架引起了廣泛的關註，它吸引了大量程序設計和開發人員進行相關內容的學習與開發，其中MLlib是Spark框架使用的核心。王曉華編著的《Spark MLlib機器學習實踐》是一本細緻介紹Spark MLlib程序設計的圖書，入門簡單，示例豐富。
本書分為12章，從Spark基礎安裝和配置開始，依次介紹MLlib程序設計基礎、MLlib的數據對象構建、MLlib中RDD使用介紹，各種分類、聚類、回歸等數據處理方法，最後還通過一個完整的實例，回顧了前面的學習內容，並通過代碼實現了一個完整的分析過程。
本書理論內容由淺而深，採取實例和理論相結合的方式，內容全面而詳盡，講解細緻直觀，適合Spark MLlib初學者、大數據分析和挖掘人員，也適合高校和培訓學習相關專業的師生教學參考。

<章節目錄>

第1章星星之火
1.1 大數據時代
1.2 大數據分析時代
1.3 簡單、優雅、有效——這就是Spark
1.4 核心——MLlib
1.5 星星之火，可以燎原
1.6 小結
第2章 Spark安裝和開發環境配置
2.1 Windows單機模式Spark安裝和配置
    2.1.1 Windows 7安裝Java
    2.1.2 Windows 7安裝Scala
    2.1.3 Intellij IDE下載和安裝
    2.1.4 Intellij IDE中Scala插件的安裝
    2.1.5 Spark單機版安裝
2.2 經典的WordCount
    2.2.1 Spark實現WordCount
    2.2.2 MapReduce實現WordCount
2.3 小結
第3章 RDD詳解
3.1 RDD是什麼
    3.1.1 RDD名稱的秘密
    3.1.2 RDD特性
    3.1.3 與其他分佈式共享內存的區別
    3.1.4 RDD缺陷
3.2 RDD工作原理
    3.2.1 RDD工作原理
    3.2.2 RDD的相互依賴
3.3 RDD應用API詳解
    3.3.1 使用aggregate方法對給定的數據集進行方法設定
    3.3.2 提前計算的cache方法
    3.3.3 笛卡爾操作的cartesian方法
    3.3.4 分片存儲的coalesce方法
    3.3.5 以value計算的countByValue方法
    3.3.6 以key計算的countByKey方法
    3.3.7 除去數據集中重複項的distinct方法
    3.3.8 過濾數據的filter方法
    3.3.9 以行為單位操作數據的flatMap方法
    3.3.10 以單個數據為目標進行操作的map方法
    3.3.11 分組數據的groupBy方法
    3.3.12 生成鍵值對的keyBy方法
    3.3.13 同時對兩個數據進行處理的reduce方法
    3.3.14 對數據進行重新排序的sortBy方法
    3.3.15 合併壓縮的zip方法
3.4 小結
第4章 MLlib基本概念
4.1 MLlib基本數據類型
    4.1.1 多種數據類型
    4.1.2 從本地向量集起步
    4.1.3 向量標籤的使用
    4.1.4 本地矩陣的使用

    4.1.5 分佈式矩陣的使用
4.2 MLlib數理統計基本概念
    4.2.1 基本統計量
    4.2.2 統計量基本數據
    4.2.3 距離計算
    4.2.4 兩組數據相關係數計算
    4.2.5 分層抽樣
    4.2.6 假設檢驗
    4.2.7 隨機數
4.3 小結
第5章協同過濾演算法
第6章 MLlib線性回歸理論與實戰
第7章 MLlib分類實戰
第8章決策樹與保序回歸
第9章 MLlib中聚類詳解
第10章 MLlib中關聯規則
第11章數據降維
第12章特徵提取和轉換
第13章 MLlib實戰演練——鳶尾花分析

<作者介紹>

王曉華，高校資深電腦專業講師，給研究生和本科生講授面向對象程序設計、數據結構、Hadoop程序設計等相關課程。主要研究方向為雲計算、數據挖掘。曾主持和參與多項國家和省級科研課題，獨立完成一項科研成果獲省級成果認定，發表過多篇論文，申請有一項專利。

Spark MLlib機器學習實踐 Spark MLlib机器学习实践

王曉華

買這商品的人也買了...

相關主題

商品描述

類似商品