數據科學手冊

Field Cady

  • 出版商: 機械工業
  • 出版日期: 2019-04-01
  • 定價: $594
  • 售價: 7.5$446
  • 語言: 簡體中文
  • 頁數: 313
  • 裝訂: 平裝
  • ISBN: 7111619110
  • ISBN-13: 9787111619116
  • 相關分類: Data Science
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

本書對數據科學進行了整體性介紹,涵蓋了掌握該學科所需的分析、
編程和業務技能等方方面面。
找到一個的數據科學家就像是尋找一隻獨角獸:
因為其所需要的技術及技能組合很難在一個人身上兼備。
另外,良好的數據科學素養不僅僅是對所訓練技能的綜合應用,
還需要能夠靈活考慮所有這些領域,並理解它們之間的聯繫。
本書提供了數據科學的速成課程,將所有必要的技能結合到一個統一的學科體系中。
與許多數據分析的書籍不同,本書涵蓋了關鍵的計算機科學和軟件工程相關內容,
因為它們在數據科學家的日常工作中發揮了極其重要的作用。
本書還介紹了經典的機器學習算法,從這些算法的數學基礎到實際應用均有描述。
本書對可視強調其在數據科學中的核心位置。
引入古典統計學的目的是幫助讀者用批判性思維對數據進行解釋,並指出常見的陷阱。
對分析結果的清化工具進行了綜述,並晰交流(這也許是數據科學技術中*為薄弱的一個環節)
有專門的章節進行講解,本書對所有涉及的主題均是在解決實際問題的背景下加以解釋。

目錄大綱

譯者序
原書前言
第1章 引言:成為獨角獸 1
1.1 數據科學家不僅僅是高薪統計人員 2
1.2 本書的內容是怎樣組織的 2
1.3 如何使用本書 3
1.4 無論如何,為什麼一切都在Python中 3
1.5 示例代碼及數據集 3
1.6 最後的話 4

第Ⅰ部分 必須掌握的基礎素材

第2章 數據科學路線圖 6
2.1 解決問題 7
2.2 理解數據:基本問題 8
2.3 理解數據:數據整理 9
2.4 理解數據:探索性分析 9
2.5 提取特徵 10
2.6 模型 10
2.7 呈現結果 11
2.8 部署代碼 11
2.9 迭代 12
2.10 術語 12

第3章 編程語言 13
3.1 為什麼使用編程語言,有無其他選項 13
3.2 數據科學編程語言綜述 14
3.2.1 Python語言 14
3.2.2 R語言 14
3.2.3 MATLAB和Octave 14
3.2.4 SAS 15
3.2.5 Scala 15
3.3 Python語言速成班 15
3.3.1 版本注解 15
3.3.2 “hello world”腳本 16
3.3.3 更為複雜的腳本 17
3.3.4 數據類型 19
3.4 字符串 19
3.4.1 注釋與文檔注釋 21
3.4.2 複雜數據類型 21
3.4.3 列表 22
3.4.4 字符串與列表 22
3.4.5 元組 23
3.4.6 字典 24
3.4.7 集合 24
3.5 定義函數 24
3.5.1 循環與控制結構 25
3.5.2 一些關鍵函數 26
3.5.3 異常處理 27
3.5.4 導入庫 27
3.5.5 類及對象 27
3.5.6 可哈希與不可哈希類型 28
3.6 Python語言技術庫 29
3.6.1 數據幀 29
3.6.2 序列 30
3.6.3 連接與分組 32
3.7 其他Python語言資源 33
3.8 延伸閱讀 33
3.9 術語 34

第4章 數據預處理:字符串操作、正則表達式和數據清理 36
4.1 世界上最糟糕的數據集 36
4.2 如何識別問題 37
4.3 數據內容問題 37
4.3.1 重複條目 37
4.3.2 單實體的多個條目 37
4.3.3 丟失缺失值 38
4.3.4 NULL 38
4.3.5 巨大異常值 38
4.3.6 過期數據 39
4.3.7 人造數據 39
4.3.8 非正規空格 39
4.4 格式化問題 39
4.4.1 不同行列之間的不規則格式化 39
4.4.2 額外的空白 39
4.4.3 不規則大小寫 40
4.4.4 不一致分隔符 40
4.4.5 不規則NULL格式 40
4.4.6 非法字符 40
4.4.7 奇怪或不兼容的時間類型 40
4.4.8 操作系統不兼容 41
4.4.9 錯誤的軟件版本 41
4.5 格式化腳本實例 42
4.6 正則表達式 43
4.6.1 正則表達式語法 43
4.7 數據科學戰壕中的生活 46
4.8 術語 47

第5章 可視化與簡單度量 48
5.1 關於Python語言可視化工具的說明 48
5.2 示例代碼 49
5.3 餅圖 49
5.4 柱狀圖 51
5.5 直方圖 53
5.6 均值、標準差、中位數和分位數 55
5.7 箱式圖 56
5.8 散點圖 57
5.9 對數軸線散點圖 59
5.10 散點陣列圖 61
5.11 熱力圖 62
5.12 相關性 63
5.13 Anscombe四重奏與數字極限 64
5.14 時間序列 65
5.15 延伸閱讀 68
5.16 術語 69

第6章 機器學習概要 70
6.1 歷史背景 71
6.2 監督與無監督學習 71
6.3 訓練數據、測試數據和過擬合 72
6.4 延伸閱讀 72
6.5 術語 73

第7章 插曲:特徵提取思路 74
7.1 標準特徵 74
7.2 有關分組的特徵 75
7.3 預覽更複雜的特徵 75
7.4 定義待預測功能 75

第8章 機器學習分類 77
8.1 什麼是分類器,用它可以做什麼 77
8.2 一些實用的關注點 78
8.3 二分類與多分類 78
8.4 實例腳本 79
8.5 特定分類器 80
8.5.1 決策樹 80
8.5.2 隨機森林 82
8.5.3 集成分類器 83
8.5.4 支持向量機 83
8.5.5 邏輯回歸 85
8.5.6 回歸 87
8.5.7 樸素貝葉斯分類器 88
8.5.8 神經網絡 89
8.6 評價分類器 90
8.6.1 混淆矩陣 91
8.6.2 ROC曲線 91
8.6.3 ROC曲線之下的面積 93
8.7 選擇分類閾值 93
8.7.1 其他性能測量 94
8.7.2 升力曲線 94
8.8 延伸閱讀 94
8.9 術語 95

第9章 技術交流與文檔化 96
9.1 指導原則 96
9.1.1 瞭解觀眾 96
9.1.2 說明其重要性 97
9.1.3 使其具體化 97
9.1.4 一張圖片勝過千言萬語 98
9.1.5 不要對自己的技術知識感到驕傲 98
9.1.6 使其看起來美觀 98
9.2 幻燈片 99
9.2.1 C.R.A.P設計原則 99
9.2.2 一些提示和經驗法則 101
9.3 書面報告 102
9.4 演示:有用的技巧 103
9.5 代碼文檔 104
9.6 延伸閱讀 105
9.7 術語 105

第Ⅱ部分 仍需要知道的事情

第10章 無監督學習:聚類與降維 108
10.1 維數災難 108
10.2 實例:“特徵臉”降維 110
10.3 主成分分析與因子分析 112
10.4 Skree圖與維度的理解 113
10.5 因子分析 114
10.6 PCA的局限性 114
10.7 聚類 115
10.7.1 聚類簇的實際評估 115
10.7.2 k均值聚類 116
10.7.3 高斯混合模型 117
10.7.4 合成聚類 118
10.7.5 聚類質量評價 118
10.7.6 輪廓分數 118
10.7.7 蘭德指數與調整蘭德指數 120
10.7.8 互信息 120
10.8 延伸閱讀 121
10.9 術語 121

第11章 回歸 1