Pandas 數據預處理詳解

日本Lombard增田秀人 譯者:陳歡

  • 出版商: 中國水利水電
  • 出版日期: 2021-11-01
  • 定價: $768
  • 售價: 7.9$607
  • 語言: 簡體中文
  • 頁數: 656
  • 裝訂: 平裝
  • ISBN: 7517098985
  • ISBN-13: 9787517098980
  • 立即出貨

買這商品的人也買了...

商品描述

Python因其擁有強大的第三方軟件庫,廣泛應用在人工智能開發、科學計算和數據分析中。
而pandas就是一款基於NumPy的解決Python數據分析任務的軟件庫。
在機器學習和數據科學中,因為很少有數據可以直接使用,所以對數據進行預處理就成為必不可少的工作。
《Pandas數據預處理詳解》就利用數據處理必需的pandas庫,從pandas基本操作、數據結構,
到pandas將執行的各種任務,如匯總統計信息、檢查缺失值/異常值/重複數據以及合併和分組數據等,
通過簡單易懂的示例,對預處理的基礎知識和各種預處理方法進行了透徹講解。
學完本書,讀者將能夠順利執行各種機器學習和數據分析任務。
本書特別適合作為機器學習工程師、
數據科學及科研工作者初學數據預處理的參考書,也適合作為案頭手冊,隨時翻閱查看。

作者簡介

日本Lombard增田秀人

Lombard公司AI戰略室室長先後在舊金山和東南亞創業,於2017年創建了機器學習學校“codexa”。
企業培訓講師,曾在xPython Meet Up & Conference 2019發表演講。

目錄大綱

目錄
第1章 pandas的概要與Python的基本操作
1.1 機器學習領域中的剛需庫——pandas
1.1.1 何謂pandas
1.1.2 pandas的主要功能
1.2 構建pandas的使用環境
1.2.1 三種構建環境下的工具包和軟件
1.2.2 在Windows操作系統中構建
1.2.3 在macOS中安裝程序
1.2.4 Google Colab平台
1.3 Python的數據結構
1.3.1 為何在機器學習中使用Python
1.3.2 變量
1.3.3 運算符
1.3.4 動態類型
1.3.5 數值類型
1.3.6 字符串類型
1.3.7 元組
1.3.8 列表
1.3.9 字典
1.3.10 集合
1.4 Python的基本操作
1.4.1 if語句
1.4.2 while語句
1.4.3 for語句
1.4.4 break語句與continue語句
1.4.5 函數
1.5 Jupyter Notebook的基本操作
1.5.1 代碼補全功能
1.5.2 對像類型信息查看
1.5.3 魔法命令
第2章 pandas的數據結構
2.1 Series
2.1.1 Series的概要
2.1.2 Series的基本操作
2.2 DataFrame對象
2.2.1 DataFrame對象的概要
2.2.2 DataFrame的基本操作
2.3 索引
2.3.1 索引的概要
2.3.2 索引的基本操作
2.4 pandas的初次接觸
2.4.1 數據集的概要
2.4.2 數據的讀人
2.4.3 數據的顯示
2.4.4 數據的引用
2.4.5 數據的排序
2.4.6 缺失數據的處理
2.4.7 數據的分組
2.4.8 數據的合併
2.4.9 數據的可視化
第3章 數據的應用於讀取
3.1 數據的引用
3.1.1 引用數據的方法
3.1.2 切片
3.1.3 屬性的引用
3.1.4 bool類型的引用
3.1.5 where方法
3.1.6 query方法
3.2 文件的讀取與寫入
3.2.1 CSV
3.2.2 Excel
3.2.3 JSON
3.2.4 HDF5
第4章 數據的聚合與排序
4.1 數據的聚合
4.1.1 最小值與最大值
4.1.2 平均值、中位數和眾數
4.1.3 標準差
4.1.4 分位數
4.1.5 累積和與累積積
4.1.6 分箱處理
4.1.7 概括統計量
4.1.8 數據透視表
4.1.9 交叉表
4.2 數據的排序
4.2.1 基於標籤的排序
4.2.2 基於元素的排序
第5章 數據變形
5.1 行和列的添加與刪除
5.1.1 添加行和列
5.1.2 刪除行和列
5.2 數據的連接與合併
5.2.1 concat函數
5.2.2 merge函數
5.3 其他的數據變形
5.3.1 隨機抽樣
5.3.2 虛擬變量
5.3.3 長型數據和寬型數據的變形
第6章 缺失值、離群值和重複數據
6.1 缺失值
6.1.1 pandas與缺失數據
6.1.2 缺失值的確認
6.1.3 缺失值的刪除
6.1.4 缺失值的置換
6.2 離群值
6.2.1 何謂離群值
6.2.2 z分數
6.2.3 四分位距
6.2.4 箱形圖
6.3 重複數據
6.3.1 重複數據的檢測
6.3.2 重複數據的刪除
第7章 函數應用與分組化
7.1 函數處理
7.1.1 apply方法
7.1.2 DataFrame類和Series類的agg方法
7.1.3 applymap方法
7.1.4 pipe方法
7.2 基於for語句的循環處理
7.2.1 Series對象的循環處理
7.2.2 DataFrame對象的循環處理
7.3 數據的分組
7.3.1 GroupBy對象
7.3.2 GroupBy對象的agg方法
7.3.3 transfom方法
7.3.4 apply方法
第8章 其他操作
8.1 字符串操作
8.1.1 str屬性
8.1.2 字符串的分割
8.1.3 字符串的替換
8.1.4 字符串的提取
8.1.5 字符串的模式匹配
8.1.6 從字符串到虛擬變量
8.2 數據的可視化
8.2.1 plot方法
8.2.2 條形圖
8.2.3 直方圖
8.2.4 散點圖
8.2.5 餅形圖
8.2.6 箱形圖
8.2.7 散點圖矩陣
8.2.8 缺失值的處理
8.3 多重索引
8.3.1 多重索引的基本操作
8.3.2 多重索引的統計
8.3.3 多重索引的連接與合併
8.4 時間序列數據
8.4.1 datetime模塊
8.4.2 處理pandas時間序列數據的對象
8.4.3 時間序列數據的索引引用
8.4.4 時間序列數據的轉換
第9章 數據分析的基礎
9.1 探索性數據分析
9.1.1 數據結構的確認
9.1.2 缺失值、離群值和重複數據的確認
9.1.3 基於數據可視化的確認
9.2 整齊數據
9.2.1 整齊數據的概要
9.2.2 將雜亂數據轉換成整齊數據
9.3 數據分析實例——基於Bank Marketing數據集
9.3.1 數據集的概要和數據結構
9.3.2 數據的基本信息
9.3.3 客戶數據分析
9.3.4 營銷活動數據分析