資料整理實踐指南 数据整理实践指南

[美]麥卡倫

  • 出版商: 人民郵電
  • 出版日期: 2016-03-01
  • 定價: $294
  • 售價: 8.5$250
  • 語言: 簡體中文
  • 頁數: 209
  • 裝訂: 平裝
  • ISBN: 7115411026
  • ISBN-13: 9787115411020
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

<內容介紹>

隨著數據科學的熱門,數據的優化、整理以及如何處理不良數據成為人們關註的重點。本書通過處理不良數據,進行數據清理的案例,向讀者展示了處理數據的方法。
    麥卡倫著魏秀麗、李妹芳編譯的《數據整理實踐指南》共有19章,從6部分向讀者展示了使用和清理不良數據背後的理論和實踐。第1部分是Grubby的動手實踐指南,它向讀者介紹了駕馭、提取數據的方法,如何處理文本數據中的數據以及Web開發中碰到的數據問題。第2部分是讓人充滿意外的數據,它向讀者介紹了數據也會「撒謊」。第3部分是方法,它向讀者介紹了處理不良數據的一些方法。第4部分是數據存儲和基礎設施,它向讀者介紹瞭如何存儲數據。第5部分是數據的商業化,它向讀者介紹瞭如何避免數據處理的一些誤差。第6部分是數據策略,它向讀者介紹瞭如何追蹤數據、評估數據質量以及構建數據質量相關平臺等。
    本書適合數據科學家、數據處理和整理相關開發人員閱讀。也適合想要進入數據處理領域的讀者閱讀。

<章節目錄>

第1章 從頭說起:什麼是噪音數據
第2章 是我的問題還是數據的問題
  2.1 理解數據結構
  2.2 校驗
    2.2.1 字段校驗
    2.2.2 值校驗
    2.2.3 簡單統計的物理解釋
  2.3 可視化
    2.3.1 關鍵詞競價排名示例
    2.3.2 搜索來源示例
    2.3.3 推薦分析
    2.3.4 時間序列數據
  2.4 小結
第3章 數據是給人看的不是給機器看的
  3.1 數據
    3.1.1 問題:數據是給人看的
    3.1.2 對數據的安排
    3.1.3 數據分散在多個文件中
  3.2 解決方案:編寫代碼
    3.2.1 從糟糕的數據格式中讀取數據
    3.2.2 從多個文件中讀取數據
  3.3 附言
  3.4 其他格式
  3.5 小結
第4章 純文本中潛在的噪音數據
  4.1 使用哪種純文本編碼?
  4.2 猜測文本編碼格式
  4.3 對文本規範化處理
  4.4 問題:在純文本中摻入了特定應用字符
  4.5 通過Python處理文本
  4.6 實踐練習題
第5章 重組Web數據
  5.1 你能獲得數據嗎
    5.1.1 一般工作流程示例
    5.1.2 Robots 協議
    5.1.3 識別數據組織模式
    5.1.4 存儲離線版本
    5.1.5 網頁抓取信息
  5.2 真正的困難
    5.2.1 下載原始內容
    5.2.2 表單、對話框和新建窗口
    5.2.3 Flash
  5.3 不利情況的解決辦法
  5.4 小結
第6章 檢測撒謊者以及相互矛盾網上評論的困惑
  6.1 Weotta公司
  6.2 獲得評論
  6.3 情感分類
  6.4 極化語言
  6.5 創建語料庫

  6.6 訓練分類器
  6.7 分類器驗證
  6.8 用數據設計
  6.9 經驗教訓
  6.10 小結
  6.11 信息資源
第7章 請噪音數據站出來
  7.1 實例1:在製造業中減少缺陷
  7.2 實例2:誰打來的電話
  7.3 實例3:當「典型的」不等於「平均的」
  7.4 經驗總結
  7.5 到工廠參觀能成為試驗的一部分嗎
第8章 血、汗和尿
第9章 當數據與現實不匹配
第10章 偏差和誤差的來源
第11章 不要把完美和正確對立起來:噪音數據真是噪音嗎
第12章 數據庫攻擊:什麼時候使用文件
第13章 ?庫表,隱網絡
第14章 雲計算神話
第15章 數據科學的陰暗面
第16章 如何雇傭機器學習專家
第17章 數據的可追蹤性
第18章 社交媒體:是可抹去的印記嗎
第19章 揭秘數據質量分析:瞭解什麼時候數據足夠優質