數據清洗, 2/e
黑馬程序員
- 出版商: 清華大學
- 出版日期: 2024-08-01
- 定價: $348
- 售價: 8.5 折 $295
- 語言: 簡體中文
- 頁數: 320
- ISBN: 7302670293
- ISBN-13: 9787302670292
-
相關分類:
Data-mining
立即出貨
買這商品的人也買了...
-
Web API 建構與設計 (Designing Web APIs: Building APIs That Developers Love)$480$379 -
機器學習工程師面試全破解:嚴選 124道 AI 演算法決勝題完整剖析$650$507 -
極詳細 + 超深入:最新版 TensorFlow 1.x/2.x 完整工程實作$1,200$948 -
特徵工程不再難:資料科學新手也能輕鬆搞定! (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)$520$405 -
$354混沌工程實戰 手把手教你實現系統穩定性 -
$265大數據爬取、清洗與可視化教程 -
$244數據清洗與 ETL 技術 -
$606Python 數據清洗 -
嵌入式軟件自動化測試$414$393 -
使用 GitOps 實現 Kubernetes 的持續部署:模式、流程及工具$714$678 -
$652機器學習項目交付實戰 -
$407Docker 與 Kubernetes 容器運維實戰 -
Hugging Face 模型及資料大公開 - 利用 BERT 建立全中文 NLP 應用$720$568 -
精通機器學習|使用 Scikit-Learn , Keras 與 TensorFlow, 3/e (Hands-On Machine Learning with Scikit-Learn, Keras, and Tensorflow: Concepts, Tools, and Techniques to Build Intelligent Systems, 3/e)$1,200$948 -
Python 服務端測試開發實戰$539$512 -
$611數據中臺:讓數據用起來第2版 -
寫程式前的必學工具:命令列、編輯器、Git/GitHub,軟體開發三本柱一次搞定$490$387 -
$458現代軟件測試技術之美 -
$555加速:高效能軟件交付之道 -
$453一本書講透命令行工具、文本編輯器和 GIT -
$453Spark SQL 大數據分析快速上手 -
$378大模型測試技術與實踐 -
AI 超神筆記術:NotebookLM 高效資料整理與分析 250技$480$379 -
$469大模型 RAG 應用開發:構建智能生成系統 -
Raspberry Pi 5 + AI 創新實踐:電腦視覺與人工智慧應用指南$680$476
簡體書拿來曬2本75折 詳見活動內容 »
-
VIP 95折
編譯原理, 2/e (Compilers : Principles, Techniques, and Tools, 2/e)$534$507 -
VIP 95折
深度學習之 TensorFlow:入門、原理與進階實戰$594$564 -
85折
$402Essential C++ (簡體中文版) -
VIP 95折
TCP/IP 詳解 (捲1):協議 (TCP/IP Illustrated, Volume 1 : The Protocols, 2/e)$774$735 -
85折
$402Go 並發編程實戰, 2/e -
VIP 95折
機器人學導論, 4/e (Introduction to Robotics: Mechanics and Control, 4/e)$474$450 -
85折
$402深入淺出 Vue.js -
85折
$351實用機器學習 (Real-world Machine Learning) -
85折
$504深度探索 C++ 對像模型 (Inside the C++ Object Model) -
85折
$300區塊鏈項目開發指南 -
85折
$402原子教你玩 STM32 (庫函數版第2版) -
85折
$402Spring Security 實戰 -
85折
$611嵌入式 Linux 基礎教程, 2/e (Embedded Linux Primer: A Practical Real-World Approach, 2/e) -
85折
$504MySQL 技術內幕-InnoDB 存儲引擎, 2/e -
85折
$448PADS 9.5 實戰攻略與高速 PCB 設計 -
85折
$244基於 Bootstrap 和 Knockout.js 的 ASP.NET MVC 開發實戰 (ASP.Net MVC 5 with Bootstrap and Knockout.Js: Building Dynamic, Responsive Web Applications) -
85折
$265深入淺出 USB 系統開發 : 基於 ARM Cortex-M3 -
85折
$402Redis 設計與實現 -
VIP 95折
FPGA 原理和結構$354$336 -
VIP 95折
TCP/IP 網絡編程$474$450 -
50折
$207區塊鏈技術進階與實戰 -
85折
$657STM32F0 實戰:基於 HAL 庫開發 -
85折
$1,009自然語言處理綜論, 2/e (Speech and Language Processing, 2/e) -
85折
$351R 語言編程藝術 (The Art of R Programming: A Tour of Statistical Software Design) -
85折
$453Spring Cloud 微服務實戰
商品描述
"本書以Kettle 9.2為基礎,全面介紹使用Kettle實現ETL的相關操作。全書共8章,分別講解數據清洗和ETL的概念,Kettle的安裝和使用,如何使用Kettle實現數據抽取、數據清洗、數據轉換和數據加載,並在最後綜合運用上述知識,構建一個電影租賃商店數據倉庫,以使讀者加深對Kettle和ETL的理解與掌握。 本書附有配套視頻、教學PPT、教學設計、測試題等資源,同時,為了幫助初學者更好地學習本書中的內容,還提供了在線答疑,歡迎讀者關註。 本書可以作為高等院校數據科學與大數據技術及相關專業的教材,也適合大數據開發初學者、ETL工程師以及數倉開發的從業者閱讀。 "
目錄大綱
目錄
第1章數據清洗概述1
1.1數據清洗的背景1
1.1.1數據質量概述1
1.1.2數據質量的評價指標2
1.1.3數據質量問題的分類3
1.2數據清洗的定義5
1.3數據清洗基本流程6
1.4數據清洗策略6
1.5數據清洗常用的方法7
1.6數據清洗面臨的挑戰9
1.7本章小結10
1.8課後習題10
第2章初識ETL12
2.1ETL的定義12
2.2ETL的體系結構13
2.3ETL關鍵步驟13
2.3.1抽取14
2.3.2轉換15
2.3.3加載15
2.4常見的ETL工具16
2.5本章小結17
2.6課後習題17
第3章Kettle19
3.1初識Kettle19
3.1.1Kettle簡介19
3.1.2Kettle的特點20
3.2Kettle的安裝與啟動20
3.3Kettle的轉換和作業23
3.3.1轉換23
3.3.2作業25
3.4Kettle的基本操作27
3.4.1轉換管理27
3.4.2作業管理39
3.4.3數據庫連接50
3.5本章小結55
3.6課後習題56
目錄數據清洗(第2版)第4章數據抽取57
4.1從文件中抽取數據57
4.1.1從CSV文件中抽取數據57
4.1.2從TSV文件中抽取數據61
4.1.3從JSON文件中抽取數據65
4.1.4從XML文件中抽取數據70
4.1.5從HDFS中抽取數據75
4.2從數據庫中抽取數據84
4.2.1從關系數據庫中抽取數據84
4.2.2從非關系數據庫中抽取數據87
4.3從Hive中抽取數據93
4.4從HTML頁面中抽取數據98
4.5本章小結105
4.6課後習題105
第5章數據清洗107
5.1重復值處理107
5.2缺失值處理112
5.2.1缺失值處理策略112
5.2.2刪除缺失值113
5.2.3填補缺失值117
5.3異常值處理123
5.3.1刪除異常值124
5.3.2替換異常值134
5.4本章小結141
5.5課後習題141
第6章數據轉換142
6.1數據規範化處理142
6.1.1數據規範化處理概述142
6.1.2數據規範化處理過程144
6.2多數據源合並149
6.2.1多數據源合並方法149
6.2.2多數據源合並過程150
6.3數據粒度轉換160
6.4數據的商務規則計算169
6.5本章小結176
6.6課後習題177
第7章數據加載178
7.1將數據加載到文本文件178
7.2將數據加載到數據庫188
7.2.1將數據加載到關系數據庫188
7.2.2將數據加載到非關系數據庫196
7.3將數據加載到Hive201
7.4本章小結211
7.5課後習題212
第8章綜合案例——構建電影租賃商店數據倉庫213
8.1案例概述213
8.1.1案例背景介紹213
8.1.2數據庫簡介213
8.1.3數據倉庫簡介219
8.2環境準備226
8.3案例實現231
8.3.1向維度表dim_date加載數據231
8.3.2向維度表dim_time加載數據240
8.3.3向維度表dim_staff加載數據247
8.3.4向維度表dim_customer加載數據253
8.3.5向維度表dim_store加載數據264
8.3.6向維度表dim_actor加載數據268
8.3.7向維度表dim_film加載數據272
8.3.8向橋接表dim_film_actor_bridge加載數據282
8.3.9向事實表fact_rental加載數據289
8.3.10定期向數據倉庫sakila_dwh加載數據301
8.4本章小結307



