R語言實戰:程式設計基礎、統計分析與資料採擷寶典 R语言实战:编程基础、统计分析与数据挖掘宝典

李倩星

買這商品的人也買了...

商品描述

<內容>

本書是一本優秀的R語言入門讀物,旨在幫助讀者迅速構建起與數據分析相關的知識體系,並學習如何使用R軟件實現數據分析方法。無論有無編程基礎或數學基礎,本書都能幫助讀者成長為一名合格的數據分析師。本書全面介紹了來自統計分析、機器學習、人工智能等領域的多種數據分析算法,在講解與之相關的R代碼時,還討論了這些算法的原理、優缺點與適用背景。本書按照由易到難的原則組織章節主題,讀者將獲得最好的閱讀體驗。通過閱讀本書,讀者將對R語言在數據分析領域的應用有一個全面的認識。這種認識不被特定行業所局限,任何行業的讀者都能利用本書介紹的數據分析方法解決本行業的數據分析問題。

<目錄>

1R的基本介紹 …………………………………………………………1

1.1 強大的 R ………………………………………………………………………… 1

1.2 R的安裝與啓動 ………………………………………………………………… 2

1.2.1 安裝並啓動 R …………………………………………………………… 3

1.2.2 安裝並啓動一個 IDE …………………………………………………… 5

1.3 R的向量、矩陣和數組 ………………………………………………………… 6

1.3.1 向量的操作方法和固有屬性 …………………………………………… 6

1.3.2 矩陣的操作和運算 ……………………………………………………… 9

1.3.3 數組中的維度函數 ……………………………………………………… 12

1.4 R的列表和數據框 ……………………………………………………………… 14

1.4.1 列表的特性和編輯方法 ………………………………………………… 14

1.4.2 數據框的創建和基本操作 ……………………………………………… 18

1.5 R數據文件的加載和載出 ……………………………………………………… 20

1.5.1 結構化純文本文件的讀取和輸出 ……………………………………… 21

1.5.2 其他文件的讀取和輸出 ………………………………………………… 23

1.6 R中安裝包 …………………………………………………………………… 25

2章原始數據的探索與預處理 ………………………………………… 29

2.1 度量數據集的集中程度 ………………………………………………………… 29

2.2 度量數據集的分散程度 ………………………………………………………… 31

2.2.1 、方差和標準差 …………………………………………………… 31

2.2.2 標準誤和偏度系數、峰度系數 ………………………………………… 33

2.3 創建一個數摘要表 …………………………………………………………… 35

2.4 異常的觀測與 …………………………………………………………… 37

2.4.1 利用箱線圖觀測異常並處理 ………………………………………… 38

2.4.2 異常檢測的其他情況和 ………………………………………… 40

2.5 缺失的填補與處理 …………………………………………………………… 42

2.5.1 刪除缺失或對其進行簡單填補 ……………………………………… 42

2.5.2 按照相關性對空缺進行填補 ………………………………………… 45

3R的數據可視化 …………………………………………………… 47

3.1 plot()函數和常用的圖形參數 ………………………………………………… 47

3.1.1 設置 plot()函數中的參數 ……………………………………………… 47

3.1.2 修改散點圖的坐標並加入標註 ………………………………………… 51

3.2 經典的基礎圖形及用途 ………………………………………………………… 54

3.2.1 線圖 ……………………………………………………………………… 54

3.2.2 直方圖 …………………………………………………………………… 59

3.2.3 箱線圖和莖葉圖 ………………………………………………………… 63

3.3 將圖形組合起來 ………………………………………………………………… 66

3.4 更多的高水平作圖函數 ………………………………………………………… 69

3.5 更多的常用作圖命令 …………………………………………………………… 72

4R中參數的估計和檢驗 …………………………………………… 75

4.1 使用 R進行點估計和區間估計 ………………………………………………… 75

4.1.1 簡單的點估計和區間估計 ……………………………………………… 75

4.1.2 估計單側置信區間 ……………………………………………………… 79

4.2 與正態總體有關的參數檢驗………………………………………………… 83

4.3 列聯表與獨立性檢驗 …………………………………………………………… 87

4.4 幾種檢驗數據分佈的函數 ……………………………………………………… 89

4.5 對非正態總體的區間估計和檢驗 ……………………………………………… 92

4.5.1 非正態總體的區間估計 ………………………………………………… 92

4.5.2 非參數檢驗中的符號檢驗 ……………………………………………… 94

4.5.3 非參數檢驗中的秩檢驗 ………………………………………………… 96

5R中的方差分析 …………………………………………………… 99

5.1 方差分析模型的建立 …………………………………………………………… 99

5.2 單因素方差分析 ……………………………………………………………… 100

5.2.1 單因素方差分析的數學思想與模型 ………………………………… 101

5.2.2 檢驗樣本是否滿足方差分析的假設條件 …………………………… 102

5.2.3 構建單因素方差分析模型 …………………………………………… 105

5.3 多因素方差分析 ……………………………………………………………… 108

5.3.1 多因素方差分析的數學思想與模型 ………………………………… 108

5.3.2 不考慮交互作用的雙因素方差分析 ………………………………… 110

5.3.3 考慮交互作用的雙因素方差分析 …………………………………… 112

5.4 秩檢驗和協方差分析 ………………………………………………………… 114

5.4.1 對控制變量應用秩檢驗方法 ………………………………………… 114

5.4.2 協方差分析的假設與應用 …………………………………………… 116

6R中的相關分析和回歸分析 ………………………………………118

6.1 多種相關係數的度量和分析 ………………………………………………… 118

6.1.1 簡單相關係數的計算和檢驗 ………………………………………… 118

6.1.2 散佈矩陣圖和偏相關係數 …………………………………………… 121

6.1.3 典型相關分析 ………………………………………………………… 123

6.2 線性回歸分析及其常規參數 ………………………………………………… 125

6.2.1 對數據進行預處理 …………………………………………………… 126

6.2.2 構建第一個回歸模型 ………………………………………………… 127

6.2.3 修正方程並檢驗殘差 ………………………………………………… 129

6.3 使用逐步回歸篩選自變量 …………………………………………………… 132

6.3.1 逐步回歸的思想與分類 ……………………………………………… 132

6.3.2 構建逐步回歸模型 …………………………………………………… 133

6.4 啞變量和邏輯回歸 …………………………………………………………… 135

6.4.1 啞變量和邏輯回歸的思想 …………………………………………… 135

6.4.2 向線性回歸模型中納入啞變量 ……………………………………… 137

7章更高級的數據可視化 ………………………………………………140

7.1 基礎圖形的拓展與延伸 ……………………………………………………… 140

7.1.1 繪制分類散點圖並添加圖標 ………………………………………… 140

7.1.2 繪制含多種類別的密度分佈圖 ……………………………………… 143

7.1.3 復合條形圖和堆棧條形圖 …………………………………………… 146

7.2 有關多元分佈函數的特殊圖形 ……………………………………………… 149

7.2.1 星圖和臉譜圖 ………………………………………………………… 150

7.2.2 輪廓圖 ………………………………………………………………… 153

7.2.3 調和曲線圖 …………………………………………………………… 155

7.3 建立最簡單的 3D圖形 ……………………………………………………… 157

7.4 如何讓圖形更美觀 …………………………………………………………… 160

7.5 更多的繪圖包和系統 ………………………………………………………… 162

8R中的聚類分析和判別分析 ………………………………………164

8.1 幾種聚類分析的異同 ………………………………………………………… 164

8.2 使用 R實現 KNN聚類 ……………………………………………………… 165

8.2.1 KNN算法的思想和模型 …………………………………………… 165

8.2.2 使用 R實現 KNN聚類 ……………………………………………… 167

8.3 使用 R實現系統聚類 ………………………………………………………… 170

8.3.1 系統聚類的思想和模型 ……………………………………………… 170

8.3.2 使用 R實現系統聚類 ……………………………………………… 171

8.4 使用 R實現快速聚類 ………………………………………………………… 174

8.4.1 快速聚類的思想和模型 ……………………………………………… 174

8.4.2 使用 R實現快速聚類 ……………………………………………… 176

8.5 幾種判別分析模型綜述 ……………………………………………………… 178

8.5.1 距離判別模型 ………………………………………………………… 179

8.5.2 Fisher判別模型 ……………………………………………………… 182

9R中的主成分分析和因子分析 ……………………………………186

9.1 主成分分析的實現與應用 …………………………………………………… 186

9.1.1 主成分分析的模型假設和數據處理 ………………&hell

目錄大綱