資料蒐集與預處理技術應用

Name: 資料蒐集與預處理技術應用
Price: 359 TWD
Availability: OnlineOnly
Author: 安俊秀//唐聃//柳源
ISBN: 7111733851

安俊秀//唐聃//柳源

出版商: 機械工業
出版日期: 2023-08-01
售價: $359
語言: 簡體中文
頁數: 208
裝訂: 平裝
ISBN: 7111733851
ISBN-13: 9787111733850
相關分類: Web-crawler 網路爬蟲

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

~~$600~~ $510

SQL Server 2012 資料庫管理實務
~~$779~~ $740

演算法, 4/e (Algorithms, 4/e)
$414

Angular 從零到一
$654

Angular 權威教程
$1,848

Usage-Driven Database Design: From Logical Data Modeling through Physical Schema Definition
$528

收穫，不止 SQL 優化 — 抓住 SQL 的本質
$312

Web API 的設計與開發 (Web API : the Good Parts)
$352

算法設計與分析基礎, 3/e (Introduction to the Design and Analysis of Algorithms, 3/e)
$454

精通 Tableau 商業數據分析與可視化
~~$2,380~~ $2,261

Learn Grafana 7.0: A beginner's guide to getting well versed in analytics, interactive dashboards, and monitoring
~~$1,008~~ $958

QEMU/KVM 源碼解析與應用
~~$3,500~~ $3,325

The Algorithm Design Manual, 3/e (Hardcover)
$653

分佈式製造系統智能協調控制理論與模型
~~$954~~ $906

統計學習要素：機器學習中的數據挖掘、推斷與預測, 2/e (The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2/e)
~~$1,600~~ $1,520

Enterprise Application Development with C# 9 and .NET 5: Enhance your C# and .NET skills by mastering the process of developing professional-grade web
~~$520~~ $468

白話演算法！培養程式設計的邏輯思考 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
~~$1,980~~ $1,881

Getting Started with Elastic Stack 8.0: Run powerful and scalable data platforms to search, observe, and secure your organization (Paperback)
~~$650~~ $507

大話 AWS 雲端架構：雲端應用架構圖解輕鬆學, 3/e
$1,840

Building an Event-Driven Data Mesh: Patterns for Designing & Building Event-Driven Architectures (Paperback)
$662

Amazon Web Services 雲計算實戰, 2/e
~~$650~~ $507

軟體測試實務 : 業界成功案例與高效實踐 [ I ]
~~$600~~ $468

軟體測試實務 : 業界成功案例與高效實踐 [ II ]
$505

ChatGPT 驅動軟件開發：AI 在軟件研發全流程的革新與實踐
~~$390~~ $371

系統架構設計簡明指南
$594

MCP 原理與實戰：高效 AI Agent 智能體開發

商品描述

本書重點介紹了資料收集和資料預處理的相關理論與技術。
全書共9章，主要包含資料擷取與預處理概述，大數據開發環境的搭建，使用Flume擷取系統日誌數據，
使用Kafka擷取系統日誌數據，其他常用的系統日誌資料擷取工具，使用網絡爬蟲擷取Web數據，
Python資料預處理庫的使用，使用ETL工具Kettle進行資料預處理，以及其他常用的資料預處理工具。
本書在第2章至第9章安排了豐富的實務操作，
實現了理論與實務的有機結合，幫助讀者更好地學習並掌握資料收集與預處理的關鍵技術。
本書可以作為高等院校大數據專業的大數據課程教材，也可以作為電腦相關專業的專業課或選修課教材，
同時也可以作為從事大數據相關專業的工作人員的參考用書。

作者簡介

安俊秀，成都信息工程大學教授，碩士生導師。軟件自動生成與智能服務四川省重點實驗室學術帶頭人（領域知識本體和大數據方向），長期從事數據科學與大數據相關的研究與教學工作，發表相關論文40餘篇，主編雲計算與大數據方向專著或教材10餘部。是國家自然科學基金委通訊評審專家，四川省科技項目評審專家，成都市科技攻關計劃評審專家。

目錄大綱

目錄
出版說明
前言
第1章資料蒐集與預處理概述
1.1 大數據簡介
1.1.1 資料的概念、類型、組織形式
1.1.2 大資料的概念、特性與作用
1.1.3 大資料的技術應用
1.2 資料分析簡介
1.2.1 資料分析的基本流程
1.2.2 資料分析的方法與技術
1.3 資料擷取簡介
1.3.1 資料擷取的三大方式及工具
1.3.2 資料擷取的應用情境
1.4 資料預處理簡介
1.4.1 資料預演處理的目的與意義
1.4.2 資料預處理的流程
1.4.3 資料預處理的工具介紹
習題
第2章大資料開發環境的建構
2.1 安裝Python與JDK
2.1.1 Java與Python概述
2.1.2 Python的安裝與設定
2.1.3 JDK的安裝與設定
2.1.4 Python與Java的IDE介紹
2.2 MySQL數據庫的安裝與設定
2.2.1 SQL概述
2.2.2 安裝MySQL數據庫
2.2.3 MySQL數據庫的基本使用
2.3 Hadoop的安裝與配置
2.3.1 單節點環境
2.3.2 偽分佈式環境
2.3.3 節點間免密通訊
2.3.4 Hadoop的啟動與測試
2.4 在Hadoop叢集上執行WordCount
2.4.1 執行Java版本WordCount實例
2.4.2 執行Pythonhon版本WordCount實例
習題
第3章使用Flume擷取系統日誌資料
3.1 Flume概述
3.2 Flume的安裝運作
3.3 Flume的核心元件
3.3.1 Agent
3.3.2 Source
3.3.3 Sink
3.3.4 Channel
3.3.5 Event 3.44
FlumeEvent 3.4 FlumeEvent 3.4 Flume與選擇器
3.4.1 Flume內建攔截器
3.4.2 自訂攔截器
3.5 Flume負載平衡與故障轉移
3.6 實作案例：使用Flume擷取資料上傳至HDFS
習題
第4章使用Kafka擷取系統日誌資料
4.1 Kafka概述
4.1. 1 訊息佇列
4.1.2 Kafka的特性
4.1.3 Kafka與Flume的差異
4.2 Kafka的安裝部署
4.2.1 叢集規劃
4.2.2 安裝Zookeeper
4.2.3 安裝Kafka
4.3 Kafka的基本架構
4.3.1 Kafka的訊息系統
4.3 .2 Producer與Consumer
4.3.3 主題與分區
4.3.4 Broker與Kafka集群
4.3.5 Zookeeper在Kafka中的作用
4.4 實踐案例：使用Kafka採集本地日誌資料
4.5 實踐案例：Kafka與Flume結合採集日誌資料
習題
第5章其他常用的系統日誌資料擷取工具
5.1 Scribe
5.1.1 Scribe簡介
5.1.2 Scribe的設定檔
5.1.3 實務案例：使用Scribe擷取系統日誌資料
5.2 Chukwa
5.2.1 Chukwa簡介
5.2.2 Chukwa架構與資料擷取
5.2.3 實作案例：使用Chukwa擷取系統日誌資料
5.3 Splunk
5.3.1 Splunk概述
5.3.2 Splunk的安裝與基本使用
5.3.3 實務案例：使用Splunk擷取系統日誌資料
5.4 日誌易
5.4.1 日誌易的特點
5.4.2 註冊日誌易帳號
5.4.3 實務案例：使用日誌易採集搜尋本機日誌檔案
5.5 Logstash
5.5.1 Logstash簡介
5.5.2 Logstash的工作原理
5.5.3 Logstash安裝與部署
5.5.4 實作案例：使用Logstash擷取並處理系統日誌資料
5.5.5 實作案例：使用Logstash將資料匯入Elasticsearch
5.6 Fluentd
5.6.1 Fluentd簡介
5.6.2 Fluentd的安裝與設定
5.6.3 Fluentd的基本指令
5.6.4 實務案例：使用Fluentd擷取系統日誌資料
習題
第6章使用網絡爬蟲擷取Web資料
6.1 網絡爬蟲概述
6.1.1 網絡爬蟲的基本原理
6.1.2 網絡爬蟲的類型
6.2 網絡爬蟲基礎
6.2.1 網絡爬蟲的基本爬取方式
6.2.2 使用正規表示式進行字串比對
6.2.3 使用解析庫解析網頁
6.2.4 Ajax資料的爬取
6.2.5 使用selenium抓取動態渲染頁
6.3 常見的網絡爬蟲框架
6.3.1 Scrapy框架
6.3.2 WebMagic框架
6.3.3 Crawler4j框架
6.3.4 WebCollector框架
6.4 實務案例：使用Scrapy爬取電商網站資料
習題
第7章Python資料預處理函式庫的使用
7.1 Python與資料分析
7.1.1 Python的特性
7.1.2 為何使用Python進行資料分析
7.2 NumPy：陣列與向量計算
7.3 Pandas：資料結構化操作
7.4 SciPy：科學化計算
7.5 Matplotlib：資料視覺化
7.6 實作案例：使用Python預處理旅遊路線資料
習題
第8章使用ETL工具Kettle進行資料預處理
8.1 Kettle概述
8.2 Kettle的安裝與配置
8.3 Kettle的基本使用
8.3.1 Kettle的使用接口
8.3.2 新建轉換與任務
8.3 .3 資料取得
8.3.4 資料清洗與轉換
8.3.5 資料遷移與裝載
8.4 實務案例：使用Kettle處理某電商網站資料
習題
第9章其他常用的資料預處理工具
9.1 Pig
9.1.1 Pig概述
9.1. 2 Pig的安裝與設定
9.1.3 Pig Latin的基本概念
9.1.4 使用Pig進行資料預