數據科學 : R語言實戰

丹·圖米 (Dan Toomey)

買這商品的人也買了...

商品描述

<內容簡介>

本書講述的是R語言在數據科學中的應用,目標讀者是從事不同行業的數據分析師、數據挖掘工程師、機器學習工程師、自然語言處理工程師、數據科學家,以及從事大數據和人工智能領域的工作者、學生、老師等。

本書的優點在於其通俗易懂、容易上手,每一個實例都有現成的數據和源代碼,讀者不僅能理解整個案例的來龍去脈,還可以直接編譯本書提供的所有源代碼,從而瞭解怎麼從實際問題轉變成可實現的代碼,感受R語言的魅力,讓數據產生價值。這種學習和實踐相結合的方式非常適合初學者和有一定經驗的數據分析師。

本書的內容涵蓋了基於數據挖掘的常用模型,包括分類、聚類、關聯分析、預測、異常檢測等,還包括機器學習的常用算法和自然語言處理、數據可視化等內容。本書內容全面,做到了易讀、易用、易理解、易實現、易上手,是不可多得的R語言書籍。

<章節目錄>

第1章模式的數據挖掘1
1.1聚類分析2
1.1.1K—means聚類3
1.1.2K—medoids聚類7
1.1.3分層聚類12
1.1.4期望最大化15
1.1.5密度估計21
1.2異常檢測24
1.2.1顯示異常值25
1.2.2計算異常28
1.3關聯規則30
1.4問題33
1.5總結34
第2章序列的數據挖掘35
2.1模式35
2.1.1Eclat 36
2.1.2arulesNBMiner 40
2.1.3Apriori 43
2.1.4用TraMineR確定序列47
2.1.5序列相似點54
2.2問題57
2.3總結57
第3章文本挖掘59
3.1功能包60
3.1.1文本處理60
3.1.2文本集群69
3.2問題80
3.3總結80
第4章數據分析——回歸分析81
4.1功能包81
4.1.1簡單回歸81
4.1.2多次回歸88
4.1.3多變量回歸分析94
4.1.4穩健回歸100
4.2問題106
4.3總結106
第5章數據分析——相關性107
5.1功能包107
5.1.1基本相關性108
5.1.2可視化相關性112
5.1.3協方差114
5.1.4皮爾森相關性117
5.1.5多分格相關性118
5.1.6四分相關性122
5.1.7異構相關矩陣126
5.1.8部分相關性128
5.2問題129
5.3總結129
第6章數據分析——聚類131
6.1功能包131
6.2K—means聚類132
6.2.1示例132
6.2.2Medoids集群140
6.2.3cascadeKM函數142
6.2.4基於貝葉斯定理信息選取集群144
6.2.5仿射傳播聚類146
6.2.6用於估測集群數量的間隙統計量149
6.2.7分級聚類151
6.3問題153
6.4總結154
第7章數據可視化——R圖形155
7.1功能包155
7.1.1交互式圖形156
7.1.2latticist功能包160
7.1.3ggplot2功能包169
7.2問題180
7.3總結181
第8章數據可視化——繪圖183
8.1功能包183
8.2散點圖183
8.2.1回歸線187
8.2.2lowess線條188
8.2.3scatterplot函數189
8.2.4Scatterplot矩陣192
8.2.5密度散點圖197
8.3直方圖和條形圖200
8.3.1條形圖200
8.3.2直方圖203
8.3.3ggplot2203
8.3.4詞雲204
8.4問題206
8.5總結206
第9章數據可視化——三維207
9.1功能包207
9.2生成三維圖形208
9.2. 1LatticeCloud——三維散點圖212
9.2.2scatterplot3d 215
9.2.3scatter3d 216
9.2.4cloud3d 218
9.2.5RgoogleMaps 220
9.2.6vrmlgenbar3D 221
9.2.7大數據223
9.2.8研究方向228
9.3問題234
9.4總結234
第10章機器學習實戰235
10.1功能包235
10.2數據集236
10.2.1數據劃分240
10.2.2模型241
10.2.3train方法254
10.3問題264
10.4總結264
第11章用機器學習預測事件265
11.1自動預測功能包265
11.1. 1時間序列266
11.1.2SMA函數272
11.1.3分解函數273
11.1.4指數平滑法274
11.1.5預測277
11.1.6霍爾特指數平滑法281
11.2問題293
11.3總結293
第12章監督學習和無監督學習295
12.1功能包296
12.1.1監督學習296
12.1.2無監督學習316
12.2問題327
12.3總結327