R語言數據分析、挖掘建模與可視化

劉順祥

預覽內頁

出版商: 清華大學
出版日期: 2021-01-01
定價: $594
售價: 8.5 折 $504
語言: 簡體中文
頁數: 416
裝訂: 平裝
ISBN: 730256762X
ISBN-13: 9787302567622
相關分類: R 語言

立即出貨 (庫存 < 3)

買這商品的人也買了...

$354

R語言入門與實踐
$504

R語言入門經典
$219

統計學習理論基礎
$654

R語言之書編程與統計
$954

R語言數據可視化之美：專業圖表繪制指南 (增強版)
$351

概率、決策與博弈: 基於R語言介紹 (Probability, Decisions and Games: A Gentle Introduction Using R)
~~$354~~ $336

人工智能算法捲1 基礎算法
~~$520~~ $405

特徵工程不再難：資料科學新手也能輕鬆搞定！ (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)
$534

集成學習：基礎與算法
$331

數據可視化 — 基於 R語言
$834

高級 R語言編程指南, 2/e
~~$350~~ $315

文本探勘：小技術大應用 (附範例光碟)
$708

基於 RapidMiner 的商業智能實踐
$801

R語言數據可視化實戰
~~$414~~ $393

人工智能算法捲2 受大自然啟發的算法
$611

金融中的機器學習
$504

統計建模與 R軟件, 2/e
$331

集成學習入門與實戰：原理、算法與應用
~~$714~~ $678

利用 Python 實現概率、統計及機器學習方法（原書第2版）
$861

精通機器學習算法
~~$560~~ $476

從 AI 到生成式 AI：40個零程式的實作體驗，培養新世代人工智慧素養
$861

R統計與數據可視化：社會科學數據分析實踐（全彩）
$356

強化學習演算法入門
$504

深度學習的理論基礎與核心算法
~~$1,014~~ $963

概率機器學習基礎篇

商品描述

本書循序漸進地介紹R語言在數據分析與挖掘中的應用，涵蓋數據分析與挖掘的常規流程，如數據預處理（清洗、整合與運算等）、數據可視化（離散型與連續型數據的繪圖姿勢）、數據建模（十大數據挖掘模型的應用）等內容。本書共分15章：第1章介紹R語言的基礎知識，對於R語言初學者具有非常大的幫助；第2~4章講解R語言的數據讀寫操作和數據的清洗與整理（如缺失值、異常值的處理，數據的聚合匯總計算，正則表達式等）；第5~6章重點闡述R語言中的繪圖神器ggplot2，詳細介紹繪圖模板和圖形的處理細節；第9~15章講解十大常用數據挖掘模型，如回歸模型、樹模型、集成模型等。通過本書的學習，讀者既可以掌握R語言的實操技巧，也可以掌握數據分析與挖掘的理論和應用。本書既適於統計學、數學、經濟學、金融學、管理學以及相關理工科專業的本科生、研究生使用，也有助於提高從事數據咨詢、研究和分析等工作人士的專業水平和技能。

作者簡介

劉順祥

統計學碩士，“數據分析1480”微信公眾號運營者。曾就職於大數據諮詢公司，為聯想、亨氏、美麗田園、網魚網咖等企業項目提供服務；曾在唯品會大數據部擔任數據分析師一職，負責電商支付環節的數據分析業務。

出版著作：《從零開始學Python數據分析與挖掘》。

目錄大綱

第1章  R語言的必備基礎知識 1
1.1  R語言簡介 1
1.2  R軟件的下載與安裝 2
1.3  第三方包的下載與加載 4
1.3.1  手動下載法 4
1.3.2  代碼下載法 4
1.3.3  第三方包的加載 5
1.4  如何查看幫助文檔 6
1.4.1  知包知函數——help函數 6
1.4.2  知函數未知包——help.search函數 6
1.4.3  知包未知函數——apropos函數 7
1.4.4  未知函數未知包——RSiteSearch函數 8
1.5  R語言中的數據結構 9
1.5.1  向量的創建 9
1.5.2  向量元素的獲取 13
1.5.3  基於向量的數據類型轉換 15
1.5.4  向量的因子化轉換 18
1.5.5  基於向量的常用函數 20
1.6  矩陣的構造 21
1.6.1  矩陣索引的使用 23
1.6.2  基於矩陣運算的常用函數 24
1.7  數據框的構造及常用函數 24
1.7.1  構造數據框 24
1.7.2  基於數據框的常用函數 26
1.8  列表的構造及索引的使用 30
1.8.1  列表的構造 30
1.8.2  列表索引的使用 31
1.9  控制流語句及自定義函數 31
1.9.1  if分支 32
1.9.2  for循環 33
1.9.3  while循環 35
1.10  R語言中的自定義函數 37
1.11  巧用apply簇函數 38
1.11.1  tapply函數的使用 38
1.11.2  apply函數的使用 40
1.11.3  lapply與sapply函數的使用 42
1.12  教你一個爬蟲項目 44
1.13  篇章總結 46

第2章  數據的讀寫操作 47
2.1  文本文件數據的讀取 47
2.1.1  csv或txt格式的數據讀入 47
2.1.2  Json格式的數據讀入 53
2.2  Excel數據的讀取 56
2.2.1  xlsx包讀取Excel數據 56
2.2.2  readxl包讀取Excel數據 60
2.3  數據庫數據的讀取 63
2.3.1  讀取MySQL數據庫 63
2.3.2  讀取SQL Server數據庫 66
2.4  幾種常見的數據寫出格式 70
2.4.1  寫出至文本文件 70
2.4.2  寫出至電子表格Excel 71
2.4.3  寫出至數據庫 73
2.5  篇章總結 74

第3章  數據的清洗與管理 76
3.1  重復記錄的識別和處理 77
3.2  缺失值的識別 79
3.3  缺失值的處理辦法 82
3.3.1  刪除法 82
3.3.2  替換法 83
3.3.3  插補法 84
3.4  異常值的識別和處理 86
3.4.1  基於分位數法識別異常值 86
3.4.2  基於σ方法識別異常值 88
3.4.3  基於模型法識別異常值 90
3.4.4  異常值的處理辦法 92
3.5  數據形狀的重塑 93
3.5.1  reshape2包 93
3.5.2  Tidyr包 96
3.6  數據的聚合操作 97
3.6.1  基於aggregate函數的聚合 97
3.6.2  基於sqldf函數的聚合 99
3.6.3  基於group_by和summarize函數的聚合 101
3.7  數據的合並與連接 102
3.7.1  基於bind_rows函數的數據合並 102
3.7.2  基於*_join函數的數據連接 104
3.8  幾種常用的抽樣技術 106
3.8.1  簡單隨機抽樣 106
3.8.2  分層抽樣 107
3.8.3  整群抽樣 108
3.9  篇章總結 109

第4章  基於正則表達式的字符串處理技術 111
4.1  基於字符串位置的處理技術 112
4.1.1  數據截斷——特定位置的子串獲取 112
4.1.2  數據清洗——非常規的字符型轉數值型 114
4.1.3  數據清洗——字符串子串的隱藏 116
4.2  正則表達式的定義及用途 117
4.2.1  什麼是正則表達式 117
4.2.2  正則表達式的常見用法 118
4.3  基於正則的單字符匹配 118
4.3.1  從靜態文本的匹配開始 118
4.3.2  任意單字符的匹配 121
4.3.3  指定字符集的匹配 122
4.4  字符匹配次數的設置 125
4.4.1  無上限的次數匹配 125
4.4.2  有限次數的匹配 128
4.5  其他正則符號的使用 131
4.6  篇章總結 132

第5章  數據可視化技術的應用 134
5.1  條形圖的繪制 136
5.2  餅圖與環形圖的繪制 140
5.3  矩形圖與瓦片圖的繪制 141
5.4  直方圖與頻次多邊形圖的繪制 144
5.5  箱線圖與小提琴圖的繪制 147
5.6  折線圖與階梯圖的繪制 150
5.7  面積圖與帶狀圖的繪制 153
5.8  散點圖及氣泡圖的繪制 155
5.9  區塊頻次圖的繪制 160
5.10  核密度圖的繪制 163
5.11  QQ圖的繪制 165
5.12  篇章總結 166

第6章  可視化圖形的個性化調整 169
6.1  分面圖與組合圖的繪制 169
6.2  參考線和文本標簽的添加 175
6.3  軸系統coord_*的設置 180
6.4  尺度scale_*的設置 182
6.5  顏色、形狀和線條類型的自定義設置 189
6.6  圖形主題的設置 191
6.7  有關圖例佈局的調整 195
6.8  篇章總結 199

第7章  線性回歸模型的預測應用 201
7.1  相關性分析 201
7.2  回歸性分析 202
7.3  線性回歸模型的介紹 203
7.4  回歸系數求解 204
7.4.1  構造似然函數 205
7.4.2  取對數並整理 205
7.4.3  展開並求導 206
7.4.4  計算偏回歸系數 206
7.5  實戰案例——如何基於成本預測利潤 206
7.6  模型的顯著性檢驗——F檢驗 210
7.6.1  提出假設 210
7.6.2  構造統計量 210
7.6.3  計算統計量 211
7.6.4  對比統計量的值和理論分佈值 212
7.7  參數的顯著性檢驗——t檢驗 212
7.7.1  提出假設 212
7.7.2  構造統計量 213
7.7.3  計算統計量 213
7.7.4  對比統計量的值和理論分佈值 214
7.8  變量選擇——逐步回歸法 214
7.9  驗證模型的各類假設前提 216
7.9.1  多重共線性檢驗 216
7.9.2  正態性檢驗 217
7.9.3  獨立性檢驗 220
7.9.4  方差齊性檢驗 220
7.10  模型的預測 222
7.11  篇章總結 223

第8章  嶺回歸與LASSO回歸模型 225
8.1  嶺回歸模型的介紹 225
8.1.1  參數求解 226
8.1.2  系數求解的幾何意義 227
8.1.3  嶺回歸模型的應用 228
8.1.4  模型的預測 234
8.2  LASSO回歸模型的介紹 235
8.2.1  參數求解 236
8.2.2  系數求解的幾何意義 237
8.2.3  LASSO回歸模型的應用 238
8.2.4  模型的預測 240
8.3  篇章總結 242

第9章  Logistic回歸模型的分類應用 244
9.1  Logistic回歸模型的構建 245
9.2  Logistic回歸模型的參數求解 247
9.2.1  極大似然估計 247
9.2.2  梯度下降 249
9.3  Logistic回歸模型的參數解釋 249
9.4  幾種常用的模型評估方法 250
9.4.1  混淆矩陣 250
9.4.2  ROC曲線 251
9.4.3  K-S曲線 253
9.5  Logistic回歸模型的應用 256
9.5.1  建模 256
9.5.2  預測 259
9.5.3  模型評估 260
9.6  篇章總結 262

第10章  決策樹與隨機森林的應用 264
10.1  節點字段的選擇 265
10.1.1  信息增益 266
10.1.2  信息增益率 268
10.1.3  基尼指數 270
10.2  決策樹的剪枝 272
10.2.1  誤差降低剪枝法 272
10.2.2  悲觀剪枝法 273
10.2.3  代價復雜度剪枝法 274
10.3  隨機森林 276
10.3.1  隨機森林的思想 277
10.3.2  隨機森林的函數說明 278
10.4  決策樹與隨機森林的應用 279
10.4.1  分類問題的應用 280
10.4.2  預測問題的應用 287
10.5  篇章總結 290

第11章  KNN模型 292
11.1  KNN算法的思想 292
11.2  最佳k值的選擇 293
11.3  相似度的度量方法 294
11.3.1  歐氏距離 294
11.3.2  曼哈頓距離 295
11.3.3  餘弦相似度 295
11.3.4  傑卡德相似系數 296
11.4  近鄰樣本的搜尋方法 297
11.4.1  KD樹搜尋法 297
11.4.2  球樹搜尋法 301
11.5  KNN模型的應用 303
11.5.1  分類問題的判別 304
11.5.2  預測性問題的解決 309
11.6  篇章總結 312

第12章  樸素貝葉斯模型 314
12.1  樸素貝葉斯理論基礎 315
12.2  幾種貝葉斯模型 316
12.2.1  高斯貝葉斯分類器 316
12.2.2  高斯貝葉斯分類器的應用 318
12.2.3  多項式貝葉斯分類器 322
12.2.4  多項式貝葉斯分類器的應用 324
12.2.5  伯努利貝葉斯分類器 327
12.2.6  伯努利貝葉斯分類器的應用 329
12.3  篇章總結 335

第13章  SVM模型 337
13.1  SVM的簡介 338
13.1.1  距離公式的介紹 339
13.1.2  SVM的實現思想 339
13.2  幾種常見的SVM模型 341
13.2.1  線性可分的SVM 341
13.2.2  一個手工計算的案例 344
13.2.3  近似線性可分SVM 346
13.2.4  線性SVM的損失函數 348
13.2.5  非線性可分SVM 349
12.2.6  幾種常用的SVM核函數 351
12.2.7  SVM的回歸預測 352
12.2.8  R語言函數介紹 353
13.3  分類性SVM模型的應用—手寫字母的識別 355
13.4  預測性SVM回歸模型的應用—受災面積的預測 358
13.5  篇章總結 361

第14章  GBDT模型 363
14.1  提升樹算法 364
14.1.1  AdaBoost算法的損失函數 364
14.1.2  AdaBoost算法的操作步驟 366
14.1.3  AdaBoost算法的簡單例子 367
14.1.4  AdaBoost算法的應用 369
14.2  GBDT算法的介紹 375
14.2.1  GBDT算法的操作步驟 375
14.2.2  GBDT分類算法 376
14.2.3  GBDT回歸算法 377
14.2.4  GBDT算法的應用 378
14.3  非平衡數據的處理 382
14.4  XGBoost算法 384
14.4.1  XGBoost算法的損失函數 384
14.4.2  損失函數的演變 386
14.4.3  XGBoost算法的應用 388
14.5  篇章總結 394

第15章  Kmeans聚類分析 396
15.1  Kmeans聚類 397
15.1.1  Kmeans的思想 397
15.1.2  Kmeans的原理 398
15.2  最佳k值的確定 399
15.2.1  拐點法 400
15.2.2  輪廓系數法 402
15.2.3  Gap Statistic 404
15.3  Kmeans聚類的應用 407
15.3.1  鳶尾花類別的聚類 407
15.3.2  基於NBA球員歷史參賽數據的聚類 410
15.4  Kmeans聚類的註意事項 415
15.5  篇章總結 416

R語言數據分析、挖掘建模與可視化

劉順祥

買這商品的人也買了...

商品描述

作者簡介

目錄大綱

類似商品