數據清洗 (微課視頻版)
黃源,何婕
買這商品的人也買了...
-
$1,728Microsoft SQL Server 2019: A Beginner's Guide, Seventh Edition
-
$296數據清洗
-
$300$270 -
$229概率論與數理統計 — 基於 Excel
-
$507Python 科學計算及實踐
-
$299$284 -
$455讓工作化繁為簡: 用 Python 實現辦公自動化
-
$507SaaS 商業實戰:好模式如何變成好生意
-
$305機器學習入門與實戰 — 基於 scikit-learn 和 Keras
-
$450Kettle 構建 Hadoop ETL 系統實踐
-
$559模式識別, 4/e (修訂版)(Pattern Recognition, 4/e)
-
$534$507 -
$236Python 深度學習實戰 — 基於 Pytorch
-
$239統計學習必學的十個問題 — 理論與實踐
-
$224深度學習必學的十個問題 — 理論與實踐
-
$311Python 數據挖掘技術及應用 (微課版)
-
$266計算方法 — 數據分析與智能計算初探, 2/e
-
$654$621 -
$458Python 數據科學實戰 (Data Science with Python)
-
$765Python 常用統計算法
-
$305大數據存儲 — 從 SQL 到 NoSQL
-
$305深度強化學習
-
$400$316 -
$398集成學習入門與實戰:原理、算法與應用
-
$650$487
商品描述
本書的編寫目的是向讀者介紹數據清洗技術的基本概念與應用。全書共10章,分別為數據清洗概述、文件格式、Web數據抽取、網絡爬蟲、Kettle數據清洗、數據遷移、文本數據處理、Python數據清洗、DataCleaner數據分析與清洗以及數據清洗綜合實訓。本書將理論與實踐操作相結合,通過大量的案例幫助讀者快速瞭解和應用數據清洗相關技術,並對書中重要的、核心的知識點加大練習力度,以達到熟練應用的目的。 本書可作為高等學校大數據、人工智能、雲計算等專業的教材,可也作為大數據愛好者的參考書。
作者簡介
黃源,男,計算機專業研究生,研究方向為計算機軟件與理論,2003年至今在重慶航天職業技術學院計算機系擔任專職教師,副教授,主要教授計算機網絡、計算機軟件等專業的專業課程。
目錄大綱
第1章數據清洗概述
1.1數據清洗基礎
1.1.1數據清洗的定義
1.1.2數據清洗的原理
1.1.3數據清洗的流程
1.1.4數據清洗的常用方法
1.1.5數據清洗的評估描述
1.1.6數據清洗中的常用評測數據集
1.2數據質量與數據倉庫
1.2.1數據質量的定義
1.2.2常見的數據質量問題
1.2.3數據質量與數據清洗
1.2.4數據倉庫與ETL
1.2.5數據映射
1.2.6主數據與元數據
1.3數據清洗中的統計基礎
1.3.1描述性統計
1.3.2推論統計
1.3.3隨機變量
1.4數據清洗環境與常用工具
1.4.1數據清洗環境介紹
1.4.2數據清洗常用工具
1.5本章小結
1.6實訓
習題1
第2章文件格式
2.1文件格式概述
2.2Kettle中文件格式的轉換
2.2.1文本文件轉換
2.2.2CSV文件轉換
2.2.3XML文件轉換
2.2.4JSON文件轉換
2.2.5Excel文件轉換
2.2.6生成記錄轉換
2.3本章小結
2.4實訓
習題2
第3章Web數據抽取
3.1Web數據抽取基礎
3.2Web數據抽取的實現
3.2.1Kettle數據抽取原理
3.2.2Kettle數據抽取實現
3.3本章小結
3.4實訓
習題3
第4章網絡爬蟲
4.1網絡爬蟲基礎
4.2Python3網絡爬蟲實現
4.2.1urllib模塊
4.2.2Requests庫
4.2.3BeautifulSoup庫
4.3Python3網絡爬蟲實例
4.3.1urllib實例
4.3.2requests實例
4.4本章小結
4.5實訓
習題4
第5章Kettle數據清洗
5.1Kettle數據清洗概述
5.2Kettle數據清洗實現
5.2.1清洗簡單數據
5.2.2清洗複雜數據
5.3本章小結
5.4實訓
習題5
第6章數據遷移
6.1數據遷移概述
6.2數據遷移實現技術
6.2.1基於主機的遷移方式
6.2.2備份恢復的遷移方式
6.2.3基於存儲的遷移方式
6.2.4基於文件系統的遷移方式
6.2.5基於數據庫的遷移方式
6.3數據遷移實現
6.3.1數據庫安裝與使用
6.3.2Kettle數據遷移
6.4本章小結
6.5實訓
習題6
第7章文本數據處理
7.1文本分詞
7.2文本數據處理方法
7.3jieba分詞的應用
7.3.1jieba概述
7.3.2jieba應用實例
7.4本章小結
7.5實訓
習題7
第8章Python數據清洗
8.1Python數據清洗概述
8.1.1Python數據清洗相關庫
8.1.2Python數據清洗庫的安裝
8.2NumPy使用
8.2.1數組的創建與使用
8.2.2計算模塊與隨機模塊的使用
8.2.3NumPy數據清洗實例
8.3Pandas使用
8.3.1Pandas數據類型概述
8.3.2Pandas數據類型應用
8.3.3Pandas數據清洗
8.4matplotlib使用
8.4.1matplotlib的介紹
8.4.2matplotlib的應用
8.5Python數據清洗實例
8.5.1清洗內部數據
8.5.2清洗外部數據
8.6本章小結
8.7實訓
習題8
第9章DataCleaner數據分析與清洗
9.1DataCleaner簡介
9.1.1DataCleaner概述
9.1.2DataCleaner界面認識
9.2DataCleaner應用
9.2.1認識DataCleaner
9.2.2DataCleaner數據分析實例
9.3本章小結
9.4實訓
習題9
第10章數據清洗綜合實訓
10.1Python數據分組與顯示
10.2Python數據清洗與顯示
10.3Kettle分組排序
10.4Kettle模糊匹配
參考文獻