數據挖掘:原理與實踐(進階篇)

[美] 查魯·C.阿加沃爾(Charu C. Aggarwal) 著

買這商品的人也買了...

商品描述

本書中文版分為基礎篇和進階篇,深入探討了數據挖掘的各個方面,從基礎知識到復雜的數據類型及其應用,捕捉了數據挖掘的各種問題領域。它不僅關註傳統的數據挖掘問題,還引入了高級數據類型,例如文本、時間序列、離散序列、空間數據、圖數據和社交網絡數據。到目前為止,還沒有一本書以如此全面和綜合的方式探討所有這些主題。
本書是進階篇,主要討論了用於不同數據領域(例如時序數據、序列數據、空間數據、圖數據)的特定挖掘方法,以及重要的數據挖掘應用(例如Web數據挖掘、排名、推薦、社交網絡分析和隱私保護)。
本書在直觀解釋和數學細節上取得了很好的平衡,既包含研究人員需要的數學公式,又以簡單易懂的方式呈現出來,方便學生和從業人員(包括數學背景有限的人)閱讀。本書包括大量插圖、示例和練習,並把重點放在語義可解釋的示例上,特別適合作為高級數據挖掘課程的教材。

作者簡介

作者簡介:

查魯C. 阿加沃爾(Charu C. Aggarwal)是IBM TJ Watson研究中心的傑出研究人員,於1996年獲麻省理工學院博士學位。
他對數據挖掘領域有著廣泛的研究,在國際會議和期刊上發表了250多篇論文,擁有80多項專利。
他曾三次被評為IBM的“傑出發明人”,並曾獲得IBM公司獎、IBM傑出創新獎和兩項IBM傑出技術成就獎。
他因為提出基於冷凝的數據挖掘中的隱私保護技術而獲得EDBT2014的時間檢驗獎。
他還獲得了IEEE ICDM研究貢獻獎(2015),這是數據挖掘領域對具有突出貢獻的研究的兩個*高獎項之一。
.他曾多次擔任ACM/IEEE知名國際學術會議的主席或程序委員會主席,並擔任大數據相關多個知名期刊的主編或編委。
由於在知識發現和數據挖掘算法上的貢獻,他入選SIAM、ACM和IEEE的會士。


譯者簡介:

王曉陽復旦大學特聘教授、博士生導師,中國計算機學會會士,ACM會員,IEEE高級會員。
主要研究興趣為大數據分析、數據安全等。於復旦大學獲得計算機科學學士、碩士學位,於美國南加州大學獲得計算機科學博士學位。
曾在美國喬治梅森大學、美國佛蒙特大學、美國國家科學基金會任職。
2011年至今在復旦大學任職。
主持多項美國國家科學基金項目、中國國家重點研發計劃項目、自然科學基金重點項目、上海市重大科研項目等,並發表過百餘篇高質量學術論文,現任Springer DSE期刊主編,IEEE ICDE會議系列、IEEE BigComp會議系列指導委員會委員,曾任CCF上海分部主席,IEEE ICDE 2012及ACM CIKM 2014總主席,WAIM會議系列指導委員會主席。曾獲得美國國家科學基金CAREER Award。


王建勇清華大學計算機系教授,國際電器與電子工程師協會會士(IEEE Fellow),中國人工智能學會會士(CAAI Fellow),江蘇省大數據安全與智能處理重點實驗室首屆學術委員會副主任。主要研究領域為數據挖掘及知識發現。
迄今發表論文100餘篇(其中單篇*高引用2000餘次)。
曾擔任IEEE ICDM'19、WISE'15、BioMedCom'14、WAIM'13、ADMA'11、NDBC'10等會議的程序委員會聯合主席以及IEEE TKDE、ACM TKDD和《軟件學報》等期刊的編委。
入選2007年度教育部“新世紀優秀人才”支持計劃和2009年度日本大川研究基金資助計劃。獲得WWW'08的Best Posters Award、2009年度和2010年度HP實驗室創新研究獎以及教育部2013年度自然科學獎二等獎。


禹曉輝南京大學學士、香港中文大學碩士、加拿大多倫多大學博士,加拿大約克大學副教授,山東大學兼職教授、博士生導師,中國計算機學會大數據專委會委員、數據庫專委會委員。
研究工作主要集中在大數據管理和分析領域,研究方向涵蓋時空大數據處理與挖掘、面向人工智能的數據管理、社交媒體挖掘等。
主持加拿大自然科學與工程理事會基金、中國國家自然科學基金等多項國家和工業界資助的科研項目。
在IEEE Trans. on Knowl. & Data Eng.及SIGMOD、VLDB、ICDE等國內外期刊和會議上發表高質量論文近100篇,是3項美國專利的發明人。
曾任WAIM2015、CloudDM2015等知名國際會議的程序委員會主席,是國際期刊Information Systems(Elsevier)的編委、加拿大自然科學與工程理事會NSERC特邀評審專家。


陳世敏中科院計算所研究員,中國科學院大學崗位教師,分別於1997年和1999年獲得清華大學計算機系學士和碩士學位,於2005年在美國卡內基梅隆大學獲得計算機科學博士學位。
主要研究方向為數據庫系統和大數據系統。曾在SIGMOD、ISCA、VLDB、ASPLOS、ICDE、CIDR等頂級國際會議和ACM TODS、IEEE TKDE等頂級國際期刊發表過論文,並獲得ICDE'04 Best Paper、SIGMOD'01 Runner-up Best Paper和2008年體系結構國際會議年度頂級論文獎(Top Picks'08)。
曾擔任PVLDB 2017、ICDE 2018、ICDCS 2016、CIKM 2014等會議的PC Area Chair,長期擔任大數據新硬件技術的主要Workshop HardBD的Co-Chair。

目錄大綱

目錄

Data Mining: The Textbook

出版者的話

譯者序

前言

第14章時間序列數據挖掘1
14.1 引言1
14.2 時間序列的前期準備和相似性度量2
14.2.1 缺失值處理2
14.2.2 噪聲去除3
14.2.3 歸一化4
14.2.4 數據轉換和約簡5
14.2.5 時間序列相似性度量6
14.3 時間序列預測7
14.3.1 自回歸模型9
14.3.2 自回歸移動平均模型10
14.3.3 帶有隱含變量的多元預測11
14.4 時間序列模體13
14.4.1 基於距離的模體14
14.4.2 轉換為序列模式挖掘15
14.4.3 週期模式16
14.5 時間序列聚類16
14.5.1 共同演化序列的在線聚類17
14.5.2 基於形狀的聚類19
14.6 時間序列異常檢測20
14.6.1 點異常21
14.6.2 形狀異常22
14.7 時間序列分類23
14.7.1 有監督事件檢測23
14.7.2 全時序分類26
14.8 小結27
14.9 文獻註釋27
14.10 練習題28

第15章離散序列挖掘29
15.1 引言29
15.2 序列模式挖掘30
15.2.1 頻繁模式到頻繁序列32
15.2.2 約束的序列模式挖掘34
15.3 序列聚類35
15.3.1 基於距離的方法36
15.3.2 基於圖的方法36
15.3.3 基於序列的聚類37
15.3.4 概率聚類37
15.4 序列中的異常檢測40
15.4.1 位置異常40
15.4.2 組合異常44
15.5 隱馬爾可夫模型45
15.5.1 HMM的正式定義47
15.5.2 評估:計算觀察序列的擬合概率48
15.5.3 說明:確定觀察序列的最優狀態序列49
15.5.4 訓練:鮑姆韋爾奇算法49
15.5.5 應用50
15.6 序列分類51
15.6.1 最近鄰分類器51
15.6.2 基於圖的方法51
15.6.3 基於規則的方法52
15.6.4 內核SVM52
15.6.5 概率方法:隱馬爾可夫模型54
15.7 小結54
15.8 文獻註釋55
15.9 練習題55

第16章空間數據挖掘57
16.1 引言57
16.2 上下文空間屬性的挖掘58
16.2.1 形狀到時間序列的轉換58
16.2.2 使用小波分析的空間數據到多維數據的轉換61
16.2.3 共址空間模式62
16.2.4 形狀聚類63
16.2.5 異常檢測64
16.2.6 形狀分類66
16.3 軌跡挖掘67
16.3.1 軌跡數據和多變量時間序列的等價性67
16.3.2 將軌跡轉換為多維數據68
16.3.3 軌跡模式挖掘68
16.3.4 軌跡聚類70
16.3.5 軌跡異常檢測72
16.3.6 軌跡分類73
16.4 小結74
16.5 文獻註釋74
16.6 練習題75

第17章圖數據挖掘76
17.1 引言76
17.2 圖匹配和距離計算77
17.2.1 同構子圖問題的Ullman算法79
17.2.2 最大公共子圖問題82
17.2.3 用於距離計算的圖匹配方法82
17.3 基於轉換的距離計算86
17.3.1 基於頻繁子結構的轉換和距離計算86
17.3.2 拓撲描述量87
17.3.3 基於內核的轉換和計算89
17.4 圖數據的頻繁子結構挖掘90
17.4.1 基於節點的連接92
17.4.2 基於邊的連接92
17.4.3 頻繁模式挖掘到圖模式挖掘93
17.5 圖聚類93
17.5.1 基於距離的方法94
17.5.2 基於頻繁子結構的方法94
17.6 圖分類96
17.6.1 基於距離的方法96
17.6.2 基於頻繁子結構的方法97
17.6.3 內核SVM98
17.7 小結98
17.8 文獻註釋99
17.9 練習題99

第18章挖掘Web數據101
18.1 引言101
18.2 Web爬取和資源發現102
18.2.1 基本爬蟲算法102
18.2.2 偏好爬蟲103
18.2.3 多線程104
18.2.4 爬蟲陷阱應對方法104
18.2.5 檢測近似重複的覆蓋104
18.3 搜索引擎索引和查詢處理105
18.4 排名算法107
18.4.1 PageRank107
18.4.2 HITS111
18.5 推薦系統112
18.5.1 基於內容的推薦114
18.5.2 協同過濾基於鄰域的方法115
18.5.3 基於圖的方法116
18.5.4 聚類方法117
18.5.5 潛在因素模型118
18.6 Web使用記錄的挖掘119
18.6.1 數據預處理120
18.6.2 應用120
18.7 小結121
18.8 文獻註釋121
18.9 練習題122

第19章社交網絡分析123
19.1 引言123
19.2 社交網絡:預備知識與特性124
19.2.1 同質性124
19.2.2 三元閉合和聚類係數124
19.2.3 網絡構成的動態性125
19.2.4 符合冪定律的度分佈126
19.2.5 中心度和聲望的度量126
19.3 社區發現129
19.3.1 Kernighan-Lin算法131
19.3.2 Girvan-Newman算法132
19.3.3 多層次的圖劃分:METIS135
19.3.4 譜聚類137
19.4 協同分類140
19.4.1 迭代分類算法141
19.4.2 隨機遊走方式的標籤傳播142
19.4.3 有監督的譜方法145
19.5 鏈接預測147
19.5.1 基於鄰域的度量148
19.5.2 Katz度量149
19.5.3 基於隨機遊走的度量150
19.5.4 鏈接預測作為分類問題150
19.5.5 鏈接預測作為缺失值估計問題150
19.5.6 討論151
19.6 社交影響分析151
19.6.1 線性閾值模型152
19.6.2 獨立級聯模型153
19.6.3 影響函數求值153
19.7 小結153
19.8 文獻註釋154
19.9 練習題155

第20章隱私保護數據挖掘157
20.1 引言157
20.2 數據採集期間的隱私保護158
20.2.1 重建聚合分佈158
20.2.2 利用聚合分佈來進行數據挖掘160
20.3 數據發布期間的隱私保護160
20.3.1 k匿名模型162
20.3.2 ?多樣性模型172
20.3.3 t相近性模型173
20.3.4 維度災難175
20.4 輸出隱私保護176
20.5 分佈式隱私保護177
20.6 小結178
20.7 文獻註釋178
20.8 練習題179

參考文獻181