實用資料分析 (Practical Data Analysis)

奎斯塔 (Hector Cuesta)

  • 出版商: 機械工業
  • 出版日期: 2014-09-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 231
  • 裝訂: 平裝
  • ISBN: 7111476239
  • ISBN-13: 9787111476238
  • 相關分類: Data Science
  • 此書翻譯自: Practical Data Analysis
  • 無法訂購

買這商品的人也買了...

商品描述

 

<內容簡介>

資深數據分析咨詢師多年經驗結晶,通過大量典型數據分析案例,全面而深入地阱解分類分析、聚類分析、數據可視化及預測方面的各種技術和方法,為快速掌握並靈活運用數據分析技術提供最佳實踐指南。
奎斯塔編著的《實用數據分析/大數據技術叢書》共14章:第l章探討數據分析的基本原理和數據分析步驟;第2章解釋如何清洗並準備數據;第3章展示在JavaScript可視化框架下應用D3.js來實現各類數據的可視化方法;第4章介紹如何應用樸素貝葉斯演算法來區分垃圾郵件;第5章講解應用動態時間規整方法尋找圖像問的相似性;第6章介紹使用隨機遊走演算法和可視化的D3.js動畫技術模擬股票價格;第7章介紹核嶺回歸(KRR)的原理以及應用;第8章描述如何使用支持向量機方法進行分類分析;第9章介紹應用細胞自動機方法對傳染病進行建模;第10章解釋如何應用Gephi從Facebook獲取社會化媒體圖譜並使之實現可視化;第11章介紹如何應用Twitter數據進行情感分析;第12章介紹如何使用MongoDB進行數據處理和聚合;第13章洋細介紹如何在MongoDB數據庫中應用MapReduce編程模型;第14章介紹如何應用IPython和Wakari開展線上數據分析。

 

<章節目錄>

譯者序

前言
評審者簡介
致謝
第1章 開始
  1.1 電腦科學
  1.2 人工智能
  1.3 機器學習
  1.4 統計學
  1.5 數學
  1.6 專業領域知識
  1.7 數據、信息和知識
  1.8 數據的本質
  1.9 數據分析過程
    1.9.1 問題
    1.9.2 數據準備
    1.9.3 數據探索
    1.9.4 預測建模
    1.9.5 結果可視化
  1.10 定量與定性數據分析
  1.11 數據可視化的重要性
  1.12 大數據
    1.12.1 傳感器和攝像頭
    1.12.2 社會化網絡分析
    1.12.3 本書的工具和練習
    1.12.4 為什麼使用python
    1.12.5 為什麼使用mlpy
    1.12.6 為什麼使用d3.js
    1.12.7 為什麼使用mongodb
  1.13 小結
第2章 數據準備與處理
  2.1 數據源
    2.1.1 開源數據
    2.1.2 文本文件
    2.1.3 excel文件
    2.1.4 sql數據庫
    2.1.5 nosql數據庫
    2.1.6 多媒體
    2.1.7 網頁檢索
  2.2 數據清洗
    2.2.1 統計方法
    2.2.2 文本解析
    2.2.3 數據轉化
  2.3 數據格式
    2.3.1 csv
    2.3.2 json
    2.3.3 xml
    2.3.4 yaml
  2.4 開始使用openrefine工具

    2.4.1 text facet
    2.4.2 聚類
    2.4.3 文件過濾器
    2.4.4 numeric facet
    2.4.5 數據轉化
    2.4.6 數據輸出
    2.4.7 處理歷史
  2.5 小結
第3章 數據可視化
  3.1 數據導向文件
    3.1.1 html
    3.1.2 dom
    3.1.3 css
    3.1.4 javascript
    3.1.5 svg
  3.2 開始使用d3.js
    3.2.1 柱狀圖
    3.2.2 餅圖
    3.2.3 散點圖
    3.2.4 單線圖
    3.2.5 多線圖
  3.3 交互與動畫
  3.4 小結
第4章 文本分類
  4.1 學習和分類
  4.2 貝葉斯分類
  4.3 e-mail主題測試器
  4.4 數據
  4.5 演算法
  4.6 分類器的準確性
  4.7 小結
第5章 基於相似性的圖像檢索
  5.1 圖像相似性搜索
  5.2 動態時間規整
  5.3 處理圖像數據集
  5.4 執行dtw
  5.5 結果分析
  5.6 小結
第6章 模擬股票價格
  6.1 金融時間序列
  6.2 隨機遊走模擬
  6.3 蒙特·卡羅方法
  6.4 生成隨機數
  6.5 用d3.js實現
  6.6 小結
第7章 預測黃金價格
  7.1 處理時間序列數據
  7.2 平滑時間序列
  7.3 數據——歷史黃金價格
  7.4 非線性回歸

    7.4.1 核嶺回歸
    7.4.2 平滑黃金價格時間序列
    7.4.3 平滑時間序列的預測
    7.4.4 對比預測值
  7.5 小結
第8章 使用支持向量機的方法進行分析
  8.1 理解多變量數據集
  8.2 降維
    8.2.1 線性無差別分析
    8.2.2 主成分分析
  8.3 使用支持向量機
    8.3.1 核函數
    8.3.2 雙螺旋問題
    8.3.3 在mlpy中執行svm
  8.4 小結
第9章 應用細胞自動機的方法對傳染病進行建模
  9.1 流行病學簡介
  9.2 流行病模型
    9.2.1 sir模型
    9.2.2 使用scipy來解決sir模型的常微分方程
    9.2.3 sirs模型
  9.3 對細胞自動機進行建模
    9.3.1 細胞、狀態、網格和鄰域
    9.3.2 整體隨機訪問模型
  9.4 通過d3.js模擬ca中的sirs模型
  9.5 小結
第10章 應用社會化圖譜
  10.1 圖譜的結構
    10.1.1 間接圖譜
    10.1.2 直接圖譜
  10.2 社會化網絡分析
  10.3 捕獲facebook圖譜
  10.4 使用gephi對圖譜進行再現
  10.5 統計分析
  10.6 度的分佈
    10.6.1 圖譜直方圖
    10.6.2 集中度
  10.7 將gdf轉化為json
  10.8 在d3.js環境下進行圖譜可視化
  10.9 小結
第11章 對twitter數據進行情感分析
  11.1 解析twitter數據
    11.1.1 tweet
    11.1.2 粉絲
    11.1.3 熱門話題
  11.2 使用oauth訪問api
  11.3 開始使用twython
    11.3.1 簡單查詢
    11.3.2 處理時間表
    11.3.3 處理粉絲

    11.3.4 處理地點和趨勢信息
  11.4 情感分類
    11.4.1 anew
    11.4.2 語料庫
  11.5 使用nltk
    11.5.1 單詞包
    11.5.2 樸素貝葉斯
    11.5.3 tweet的情感分析
  11.6 小結
第12章 使用mongodb進行數據處理和聚合
  12.1 開始使用mongodb
    12.1.1 數據庫
    12.1.2 集合
    12.1.3 文件
    12.1.4 mongo shell
    12.1.5 insert/update/delete
    12.1.6 queries查詢
  12.2 數據準備
    12.2.1 使用openrefine進行數據轉換
    12.2.2 通過pymongo來插入文件
  12.3 分組
  12.4 聚合框架
    12.4.1 流水線
    12.4.2 表達式
  12.5 小結
第13章 使用mapreduce方法
  13.1 mapreduce概述
  13.2 編程模型
  13.3 在mongodb中使用mapreduce
    13.3.1 map函數
    13.3.2 reduce函數
    13.3.3 使用mongo shell
    13.3.4 使用umongo
    13.3.5 使用pymongo
  13.4 過濾輸入集合
  13.5 分組和聚合
  13.6 文字雲對tweet中最常見的積極詞匯進行可視化
  13.7 小結
第14章 使用ipython和wakari進行在線數據分析
  14.1 開始使用wakari
  14.2 開始使用ipython記事本
  14.3 通過pil進行圖像處理簡介
    14.3.1 打開一個圖像
    14.3.2 圖像直方圖
    14.3.3 過濾
    14.3.4 操作
    14.3.5 轉化
  14.4 使用pandas
    14.4.1 處理時間序列
    14.4.2 通過數據框架來操作多變量數據集

    14.4.3 分組、聚合和相關
  14.5 使用ipython進行多機處理
  14.6 分享你的記事本
  14.7 小結
附錄 環境搭建 

 

<作者介紹>

(美)奎斯塔|譯者:刁曉純//陳堰平
Hector cuesta資深數據分析咨詢 師,為金融服務、社會化網絡、在線 學習和人力資源等多個行業提供軟件 工程與數據分析方面的咨詢服務。他 是墨西哥州自治大學電腦科學系的 講師,主要研究領域涉及計算流行病 學、機器學習、電腦視覺、高性能計 算、大數據、模擬和數據可視化。他是 《software Guru》雜誌的專欄作家,並 且在一些國際期刊和會議中發表多篇科 學論文。業餘時間,他是樂高機器人和 樹莓派的狂熱愛好者。