資料採擷核心技術揭秘 数据挖掘核心技术揭秘

賈雙成, 王奇, 等

  • 出版商: 機械工業
  • 出版日期: 2015-11-16
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 201
  • 裝訂: 平裝
  • ISBN: 7111519248
  • ISBN-13: 9787111519249
  • 相關分類: Data ScienceData-miningMachine Learning
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

相關主題

商品描述

 

<內容簡介>

本書包括五部分內容。首部分(第1~3章)涉及數據挖掘技術的基礎知識,介紹數據挖掘的定義、數據挖掘工具及應用領域,數據挖掘的數學基礎內容,以及海量數據挖掘處理技術。第二部分(第4~5章)分別從聚類技術和離群點挖掘技術闡述聚類在語音區分、新聞分組、銷售策略制定、交通事故預測、欺詐檢測、入侵檢測、異常氣候檢測等方面的應用。第三部分(第6~11章)分別從決策樹、基於實例的學習、支持向量機、貝葉斯學習、人工神經網絡、遺傳算法在病情診斷、信用卡欺詐、機械裝備設計、法律案件審理、動物分類、垃圾郵件過濾、手寫文字識別、股票價格預測、人臉識別、音樂生成等方面闡述分類的應用。第四部分(第12章)闡述回歸數據挖掘技術的應用,涉及卡爾曼算法在股票價格預測、GPS定位方面的應用。第五部分(第13章)介紹推薦系統這個最典型的數據挖掘應用。附錄總結本書內容,闡述數據挖掘技術的數學本質。

 

<章節目錄>

前言
第一部分基礎知識
第1章引言2
1.1數據挖掘的含義2
1.2數據挖掘的演變過程3
1.3數據工具簡介4
1.3.1 Hadoop與MapReduce5
1.3.2 Pig語言8
1.3.3 MATLAB編程9
1.3.4 SAS9
1.3.5 WEKA12
1.3.6 R語言編程12
1.4數據挖掘應用領域13
1.5小結14
第2章數學基礎15
2.1概率統計16
2.1.1基本概念16
2.1.2隨機變量及其分佈19
2.2相似度24
2.2.1期望與方差25
2.2.2距離27
2.2.3相關係數31
2.3矩陣計算34
2.4最小二乘法39
2.4.1最小二乘法定義39
2.4.2回歸40
2.4.3參數的最小二乘法估計42
第3章海量數據處理技術46
3.1索引技術46
3.1.1數據庫索引46
3.1.2文本索引49
3.2海量數據處理技術52
3.2.1外排序53
3.2.2分佈式處理53
3.2.3 Bloom filter54
3.2. 4常用技巧55
第二部分聚類
第4章聚類58
4.1應用場景58
4.1.1語音區分58
4.1.2新聞分組59
4.1.3選定銷售策略59
4.1.4交通事件預測59
4.2聚類技術60
4.2.1劃分聚類61
4.2.2層次聚類67
4.2.3基於密度的聚類70
4.2.4基於網格的聚類72
4.3多元分析72
4.3.1主成分分析法73
4.3.2因子分析83
4.3.3對比分析83
第5章離群點挖掘技術85
5.1應用場景85
5.1.1異常交通事件檢測85
5.1.2欺詐檢測85
5.1.3入侵檢測86
5.1.4異常氣候檢測86
5.2離群點挖掘技術86
5.2.1基於統計的離群點挖掘技術87
5.2.2基於鄰近度的離群點挖掘技術88
5.2.3基於密度的離群點挖掘技術89
5.2.4基於聚類的離群點挖掘技術92
5.2.5高維數據的離群點檢測算法93
第三部分分類
第6章決策樹98
6.1應用場景98
6.1.1病情診斷98
6.1.2信用卡欺詐檢測98
6.2決策樹技術99
6.2. 1概述99
6.2.2技術實現100
6.2.3多分類決策樹104
6.2.4參考實例106
第7章基於實例的學習108
7.1應用場景108
7.1.1機械裝備的總體設計108
7.1.2對新的法律案件的推 ​​理109
7.1.3規劃或調度問題109
7.2 K近鄰算法110
7.3 KD樹111
7.3.1近鄰的實現:KD樹111
7.3.2 KD樹的構建112
7.3.3 KD樹的最近鄰搜索算法113
第8章支持向量機115
8.1應用場景115
8.1.1病情分類115
8.1.2動物分類116
8.2支持向量機技術116
8.2.1概述116
8.2.2技術實現118
8.2.3核函數122
8.2.4多類分類器124
第9章貝葉斯學習126
9.1應用場景126
9.1.1垃圾郵件過濾126
9.1.2手寫文字識別127
9.1.3拼寫檢查128
9.1.4分詞128
9.1.5語音識別129
9.1. 6股票價格預測129
9.1.7病情診斷129
9.1.8選定銷售策略130
9.1.9交通事件預測130
9.2貝葉斯學習技術131
9.2.1概述131
9.2.2技術實現131
9.2.3參考實例135
第10章人工神經網絡138
10.1應用場景138
10.1.1信用卡欺詐檢測138
10.1.2病情診斷139
10.1.3足球比賽預測139
10.1.4圖像姿勢識別139
10.1.5利用圖像識別的自動駕駛140
10.1. 6人臉識別140
10.1.7語音分類識別141
10.2人工神經網絡技術142
10.2.1概述142
10.2.2技術實現142
10.2.3參考實例145
第11章遺傳算法152
11.1應用場景152
11.1.1私人定製的電影152
11.1.2國際象棋學習153
11.1.3電路設計154
11.1.4機器人的模擬控制154
11.1.5函數設計154
11.1.6唐詩生成器155
11.1.7音樂生成器155
11.2遺傳技術155
11.2. 1概述155
11.2.2技術實現158
11.2.3參考實例:背包問題166
第四部分回歸
第12章卡爾曼算法170
12.1應用場景170
12.1.1股票價格預測170
12.1.2 GPS定位預測171
12.2卡爾曼技術171
12.2.1卡爾曼算法定義171
12.2.2技術實現172
12.2.3參考實例:GPS定位175
第五部分應用
第13章推薦系統180
13.1應用場景181
13.1.1歌曲推薦181
13.1.2 QQ好友圈子的推薦功能182
13.1.3今日頭條183
13.1.4淘寶商品推薦184
13.1.5 Netflix電影推薦184
13.1.6豆瓣FM的推薦185
13.1.7為用戶定製的廣告185
13.1.8蘋果APP排名的規則186
13.2推薦系統技術186
13.2.1協同過濾187
13.2.2基於內容的推薦188
13.2.3推薦系統的缺陷189
13.2.4潛在因子算法190
13.2.5參考實例:音樂推薦193
附錄A數據挖掘技術總結197

 

<作者介紹>

賈雙成,江南大學碩士,現為阿裡巴巴高級工程師,擅長於數據編譯、數據挖掘的系統分析和架構設計,研究方向包括幾何算法、數據編譯、數據挖掘算法及應用。 曾發表專利、論文三十餘篇。在研究算法之餘,也喜歡涉獵管理學、哲學、心理學、歷史等領域的知識。王奇,阿裡巴巴工程師,北京航空航天大學碩士,擅長於智能交通數據處理、數據挖掘,研究方向包括導航定位、浮動車處理、數據挖掘算法及應用。 曾發表發明專利、論文10餘項或篇,喜歡旅遊,愛好閱讀,廣泛涉獵文學、小說、經濟類書籍。