數據挖掘:概念與技術(原書第4版) Data Mining: Concepts and Techniques
Han, Jiawei, Pei, Jian, Tong, Hanghang 王宏志
- 出版商: 機械工業
- 出版日期: 2025-07-01
- 售價: $774
- 貴賓價: 9.5 折 $735
- 語言: 簡體中文
- 頁數: 554
- ISBN: 7111775937
- ISBN-13: 9787111775935
-
相關分類:
Data-mining
- 此書翻譯自: Data Mining: Concepts and Techniques, 4/e (Hardcover)
立即出貨
商品描述
本書是介紹數據挖掘的經典書籍之一,將挖掘理論系統化整理,搭建起理論框架,涵蓋了該領域的核心內容,有足夠的廣度和深度。本書首先介紹了數據挖掘的概念,闡述了數據預處理、數據表征以及數據倉儲的方法。然後,將數據挖掘方法分為幾個主要任務,介紹了挖掘頻繁模式、關聯和大數據集的相關性的概念和方法,數據分類和模型構建,聚類分析,離群點檢測。接著系統地介紹了深度學習的概念和方法。 ,本書涵蓋了數據挖掘的趨勢、應用和研究前沿。本書適合作為計算機科學、統計學、商業和數據科學等專業學生的數據挖掘教材,也適合作為應用開發者、商業專業人士和研究數據挖掘概念和原理的研究者的參考書。
作者簡介
韓家煒(Jiawei Han)是伊利諾伊大學厄巴納–香檳分校計算機科學系Michael Aiken講席教授。他因在知識發現和數據挖掘研究方面的貢獻獲得了無數獎項,包括ACM SIGKDD創新獎(2004年)、IEEE計算機學會技術成就獎(2005年)和IEEE W. Wallace McDowell獎(2009年)。他是ACM會士和IEEE會士,曾擔任ACM Transactions on Knowledge Discovery from Data(2006—2011)創始主編,並擔任多種期刊的編委會成員,包括IEEE Transactions on Knowledge and Data Engineering和Data Mining and Knowledge Discovery。
裴健(Jian Pei)現任杜克大學計算機科學、生物統計與生物信息學、電氣學與計算機工程教授。2002年,他在Jiawei Han博士的指導下,於西蒙弗雷澤大學獲得了計算機科學博士學位。他在很多 學術論壇發表了大量關於數據挖掘、數據庫、網絡搜索和信息檢索的文章,並積極為學術界服務。他是加拿大皇家學會會員、加拿大工程院院士、ACM和IEEE的會士。榮獲2017年ACM SIGKDD創新獎以及2015年ACM SIGKDD服務獎。
童行行現為伊利諾伊大學厄巴納–香檳分校計算機科學系副教授。他於2009年在卡內基梅隆大學獲得博士學位。他發表了200多篇文章。他的研究獲得了多個 機構的獎項和數千次引用。他是SIGKDD Explorations(ACM)的主編和多家期刊的副主編。
目錄大綱
譯者序
推薦序
第2版序
前言
致謝
作者簡介
第1章 緒論
1.1 什麼是數據挖掘
1.2 數據挖掘:知識發現中不可或缺的一步
1.3 數據挖掘的數據類型多樣性
1.4 挖掘各種各樣的知識
1.4.1 多維數據匯總
1.4.2 挖掘頻繁模式、關聯和相關性
1.4.3 用於預測分析的分類和回歸
1.4.4 聚類分析
1.4.5 深度學習
1.4.6 離群點分析
1.4.7 數據挖掘的所有結果都有趣嗎
1.5 數據挖掘:多學科的交匯
1.5.1 統計學與數據挖掘
1.5.2 機器學習與數據挖掘
1.5.3 數據庫技術與數據挖掘
1.5.4 數據挖掘與數據科學
1.5.5 數據挖掘與其他學科
1.6 數據挖掘與應用
1.7 數據挖掘與社會
1.8 總結
1.9 練習
1.10 文獻註釋
第2章 數據、度量與數據預處理
2.1 數據類型
2.1.1 標稱屬性
2.1.2 二元屬性
2.1.3 序數屬性
2.1.4 數值屬性
2.1.5 離散屬性與連續屬性
2.2 數據的基本統計描述
2.2.1 中心趨勢度量
2.2.2 數據離散趨勢度量
2.2.3 協方差和相關系數
2.2.4 數據基本統計描述的圖形顯示
2.3 數據的相似性與相異性度量
2.3.1 數據矩陣與相異性矩陣
2.3.2 標稱屬性的鄰近性度量
2.3.3 二元屬性的鄰近性度量
2.3.4 數值屬性的相異性:閔可夫斯基距離
2.3.5 序數屬性的鄰近性度量
2.3.6 混合類屬性的相異性
2.3.7 余弦相似性
2.3.8 度量相似的分布:Kullback-Leibler散度
2.3.9 捕獲相似性度量中的隱藏語義
2.4 數據質量、數據清洗和數據集成
2.4.1 數據質量度量
2.4.2 數據清洗
2.4.3 數據集成
2.5 數據轉換
2.5.1 規範化
2.5.2 離散化
2.5.3 數據壓縮
2.5.4 抽樣
2.6 維歸約
2.6.1 主成分分析
2.6.2 屬性子集選擇
……
第3章 數據倉庫和在線分析處理
第4章 模式挖掘:基本概念和方法
第5章 模式挖掘:高級方法
第6章 分類:基本概念和方法
第7章 分類:高級方法
第8章 聚類分析:基本概念和方法
第9章 聚類分析:高級方法
第10章 深度學習
第11章 離群點檢測
第12章 數據挖掘趨勢和研究前沿
附錄A 數學背景
參考文獻