數據準備和特徵工程 — 數據工程師必知必會技能

齊偉

  • 出版商: 電子工業
  • 出版日期: 2020-03-01
  • 定價: $270
  • 售價: 8.5$230
  • 語言: 簡體中文
  • 裝訂: 平裝
  • ISBN: 7121382636
  • ISBN-13: 9787121382635
  • 相關分類: DeepLearning
  • 立即出貨

買這商品的人也買了...

商品描述

本書詳細地介紹了大數據、人工智能等項目中不可或缺的環節和內容:數據準備和特徵工程。書中的每節首先以簡明方式介紹了基本知識;然後通過實際案例演示了基本知識的實際應用,並提供了針對性練習項目,將“知識、案例、練習”融為一體;最後以“擴展探究”方式引導讀者進入更深廣的領域。本書既適合作為大學相關專業的教材,也適合作為大數據、人工智能等領域的開發人員的參考讀物。

作者簡介

齊偉

自稱老齊,現居蘇州,所著在線教程《零基礎學Python》及《
零基礎學Python(第2版)》在業內引起非常大的反響。
願意和來自各方的朋友討論技術問題,並能提供相關技術服務

目錄大綱

目錄
第1章感知數據............................................ ............... 001
1.0了解數據科學項目............................................ ..... 001
1.1文件中的數據............................................ ......... 003
1.1.1CSV文件............................................ ....... 003
1.1.2Excel文件............................................ ..... 009
1.1.3圖像文件............................................ ...... 015
1.2數據庫中的數據............................................ ....... 019
1.3網頁上的數據............................................ ......... 029
1.4來自API的數據............................................ ........ 039

第2章數據清理............................................ ............... 044
2.0基本概念.............................................. ........... 045
2.1轉化數據類型............................................. ........ 046
2.2處理重複數據............................................. ........ 054
2.3處理缺失數據............................................. ........ 057
2.3.1檢查缺失數據........................................... ... 058
2.3.2用指定值填補.......................................... .... 063
2.3.3根據規律填補........................................... ... 069
2.4處理離群數據............................................ ......... 076

第3章特徵變換............................................ ............... 083
3.0特徵的類型............................................. .......... 084
3.1特徵數值化............................................. .......... 085
3.2特徵二值化............................................ ........... 088
3.3OneHot編碼.............................................. ......... 093
3.4數據變換.............................................. ........... 098
3.5特徵離散化............................................. .......... 104
3.5.1無監督離散化.......................................... .... 104
3.5.2有監督離散化.......................................... .... 110
3.6數據規範化.............................................. ......... 113

第4章特徵選擇............................................ ............... 124
4.0特徵選擇簡述............................................ ......... 124
4.1封裝器法............................................. ............ 127
4.1.1循序特徵選擇........................................... ... 127
4.1.2窮舉特徵選擇.......................................... .... 135
4.1.3遞歸特徵消除....................................... 140
4.2過濾器法............................................. .... 144
4.3嵌入法.............................................. ..... 149

第5章特徵抽取............................................ ....... 154
5.1 ① 無監督特徵抽取.......................................... 154
5.1.1主成分分析......................................... 154
5.1.2因子分析........................................... 161
5.2有監督特徵抽取........................................... 167
附錄AJupyter簡介............................................. ... 173
附錄BNumPy簡介............................................. ..... 176
附錄CPandas簡介............................................. .... 185
附錄DMatplotlib簡介............................................. 194
後記 199