R語言醫學數據分析實踐

李丹宋立桓蔡偉祺

預覽內頁

出版商: 清華大學
出版日期: 2024-10-01
售價: $594
貴賓價: 9.5 折 $564
語言: 簡體中文
頁數: 279
ISBN: 7302673489
ISBN-13: 9787302673484
相關分類: R 語言

立即出貨

買這商品的人也買了...

~~$594~~ $564

自製編譯器
~~$980~~ $833

C語法暨程式庫標準辭典, 2/e (C in a Nutshell: The Definitive Reference, 2/e)
$509

R語言醫學數據分析實戰
~~$780~~ $616

R語言邁向 Big Data 之路：王者歸來 ,2/e
$611

金融中的機器學習
~~$599~~ $569

用 Go語言自製解釋器
~~$539~~ $512

智能風控實踐指南：從模型、特徵到決策
$331

企業數字員工建設指南——機器人流程自動化（RPA）實踐
~~$534~~ $507

CPU 眼裡的 C/C++
$458

R語言醫學多元統計分析
~~$594~~ $564

RPA 開發：UiPath 入門與實戰
$280

RPA 機器人與商務應用
$657

數據驅動的進化優化
$327

圖解演算法：從基礎知識到實際應用的演算法入門書
$331

群體智能算法的理論基礎
$356

分佈式機器學習模式
~~$594~~ $564

Android 智能座艙開發：從源碼到實踐
$560

破解深度學習：模型算法與實現 (基礎篇)
$356

AI 圖像生成核心技術與實戰
~~$539~~ $512

基於 Python 的金融分析與風險管理 (暢享版)(基礎捲)
~~$648~~ $615

地理計算與 R語言
~~$534~~ $507

WebGIS 開發從入門到實踐
~~$580~~ $522

基礎統計與 R語言
~~$708~~ $672

可解釋機器學習：黑盒模型可解釋性理解指南, 2/e
~~$680~~ $537

全面掌握 Gemini 開發實務：輕鬆駕馭 Google AI 引擎

商品描述

"公共醫學數據庫的應用越來越廣泛，利用這些數據庫進行論文寫作可以顯著減少研究成本和時間。《R語言醫學數據分析實踐》以公共醫學數據為例，講解如何使用R語言進行數據挖掘和統計分析。《R語言醫學數據分析實踐》通過大量精選的實例，對統計分析方法進行了深入淺出的介紹，旨在幫助讀者解決醫學數據分析中遇到的實際問題。《R語言醫學數據分析實踐》配套提供示例源碼、PPT課件、作者微信群答疑服務。《R語言醫學數據分析實踐》共分為12章，內容包括R語言介紹、R語言基本語法、R語言數據清洗、R語言數據可視化、R語言統計建模分析方法、R語言機器學習實戰入門、列線圖在預測模型中的應用、臨床數據挖掘中的生存分析、NHANES 數據庫挖掘實戰、GEO數據庫挖掘實戰、孟德爾隨機化分析實戰、單細胞測序實戰。《R語言醫學數據分析實踐》適用於臨床醫學、公共衛生及其他醫學相關專業的本科生和研究生使用，也可作為其他專業的學生和科研工作者學習數據分析的參考書。閱讀本書，讀者不僅能夠掌握使用R語言及相關包快速解決實際問題的方法，還能更深入地理解公共醫學數據庫挖掘的實戰精髓。"

作者簡介

李丹，福建醫科大學附屬協和醫院消化內科主任醫師，教授，博士生導師，福建省高層次人才，福建省青年五四獎章、福建省青年科技獎獲得者。中華醫學會消化病分會青年委員。以通訊作者或第一作者身份發表SCI論文16篇。
宋立桓，曾服務於微軟中國有限公司，國內因特網頭部企業解決方案資深架構師，專註於人工智能和大數據挖掘分析，擁有多項人工智能發明專利。著有《Python深度學習從零開始學》《雲原生構建數字世界》《MySQL性能優化和高可用架構實踐》《PyTorch深度學習與企業級項目實戰》等科技著作。
蔡偉祺，福建醫科大學協和臨床醫學院2022級專業學位碩士研究生，精通R語言和公共醫學數據庫挖掘。

目錄大綱

第1章 R語言介紹 1

1.1 R語言概述 1

1.1.1 什麼是R語言 1

1.1.2 臨床醫生使用R語言的優勢 1

1.2 R編程環境的搭建 2

1.2.1 R語言的下載和安裝 3

1.2.2 RStudio的下載和安裝 5

1.2.3 RStudio操作 6

1.3 R語言包 8

1.3.1 什麼是R包 8

1.3.2 R包的安裝 8

1.4 初識R語言的註意事項 9

第2章 R語言的基本語法 11

2.1 R語言的數據結構 11

2.1.1 向量 11

2.1.2 矩陣 13

2.1.3 數組 15

2.1.4 數據框 16

2.2 R語言函數簡介 17

2.2.1 函數的定義 17

2.2.2 常用內置函數的使用 18

2.3 R語言中的數據讀寫 19

2.3.1 讀取文件 19

2.3.2 寫入文件 20

2.3.3 讀寫其他數據文件 21

2.4 R語言流程控制 21

2.4.1 判斷語句 21

2.4.2 循環語句 23

2.5 字符串操作 24

2.6 R語言數據保存 26

第3章 R語言數據清洗 27

3.1 數據清洗的重要性 27

3.2 數據質量評估 28

3.3 數據清洗 30

3.3.1 缺失值檢查及處理 30

3.3.2 異常值檢查及處理 32

3.3.3 重復值檢查及處理 34

3.4 數據清洗dplyr包的使用 34

3.5 數據清洗實戰 37

第4章 R語言數據可視化 42

4.1 基礎繪圖 42

4.2 ggplot2繪圖 45

4.2.1 ggplot2語法入門及相關軟件包 46

4.2.2 ggplot2繪制簡單的統計圖形 46

4.2.3 ggplot2繪制復雜圖形（統計圖的組合、分面展示） 54

4.3 高質量SCI論文繪圖 58

4.3.1 聚類分析和相關分析的熱圖詳解 58

4.3.2 ROC曲線的繪制 63

4.3.3 火山圖的繪制 67

第5章 R語言統計建模分析 71

5.1 經典統計分析 71

5.1.1 t檢驗 71

5.1.2 方差分析 73

5.1.3 卡方檢驗 74

5.1.4 簡單線性回歸分析 75

5.2 高級回歸分析 77

5.2.1 多重線性回歸分析 77

5.2.2 Logistic回歸分析 78

5.2.3 回歸分析實戰 80

5.3 SCI文章兩表一圖實戰 84

5.3.1 SCI文章—基線資料表 84

5.3.2 SCI文章—單因素回歸分析表或多因素回歸分析表 88

5.3.3 SCI文章—亞組分析的森林圖 89

5.3.4 限制性立方樣條圖 92

第6章 R語言機器學習實戰入門 95

6.1 什麼是機器學習 95

6.2 機器學習的流程 96

6.2.1 數據收集 96

6.2.2 數據預處理 97

6.2.3 特徵工程 97

6.2.4 模型構建和訓練 98

6.3 機器學習分類 98

6.3.1 監督學習 98

6.3.2 無監督學習 99

6.3.3 強化學習 100

6.4 過擬合和欠擬合 101

6.4.1 過擬合 101

6.4.2 欠擬合 101

6.5 衡量機器學習模型的指標 102

6.5.1 正確率、精確率和召回率 102

6.5.2 幾個常見的比率 104

6.5.3 混淆矩陣 104

6.5.4 F1 score和ROC曲線 105

6.6 K折交叉驗證 108

6.7 支持向量機概述 108

6.8 隨機森林概述 110

6.9 糖尿病風險預測實戰 110

6.9.1 數據集背景 110

6.9.2 數據預處理 112

6.9.3 模型建立 113

6.9.4 模型評估 113

6.10 ICU患者死亡率預測實戰 115

6.10.1 數據集背景 115

6.10.2 數據預處理 115

6.10.3 模型建立 118

6.10.4 模型評估 120

第7章列線圖在預測模型中的應用 122

7.1 列線圖基本原理 122

7.2 列線圖的三大要素 123

7.3 列線圖解讀 123

7.4 列線圖的實戰 124

7.4.1 列線圖R實例一 124

7.4.2 列線圖R實例二 126

7.5 列線圖在數據挖掘中的應用 128

第8章臨床數據挖掘中的生存分析 133

8.1 基本概念和原理 133

8.1.1 什麼是生存數據 133

8.1.2 生存分析的含義 134

8.1.3 為什麼要用生存分析 134

8.1.4 生存分析的刪失 135

8.1.5 生存分析的常用方法 135

8.2 Kaplan-Meier法生存分析實戰 137

8.2.1 Kaplan-Meier法介紹 137

8.2.2 Kaplan-Meier生存曲線R語言實戰 137

8.3 Cox生存分析實戰 142

8.3.1 Cox回歸模型介紹 142

8.3.2 Cox回歸模型實戰 143

8.4 競爭風險模型 144

8.4.1 臨床研究中如何處理競爭事件 145

8.4.2 競爭風險模型R語言實戰 145

第9章 NHANES數據庫挖掘實戰 149

9.1 NHANES數據庫介紹 149

9.2 NHANES數據庫的下載與合並 152

9.3 NHANES權重介紹及使用 155

9.3.1 什麼是權重 156

9.3.2 NHANES權重分析的必要性 156

9.3.3 NHANES權重如何選擇 158

9.3.4 NHANES權重實戰 160

9.4 NHANES數據分析實戰 162

9.5 NHANES數據庫發文選題介紹 173

第10章 GEO數據庫挖掘實戰 175

10.1 GEO數據庫介紹 175

10.1.1 GEO數據庫概況 175

10.1.2 GEO數據庫組織結構 176

10.2 GEO數據庫檢索 176

10.3 芯片基礎知識 179

10.4 GEO數據庫分析實戰 179

10.4.1 找GSE編號 180

10.4.2 安裝生物信息分析所需的R包 181

10.4.3 下載表達矩陣 182

10.4.4 獲取分組信息 184

10.4.5 獲取表達矩陣並檢查數據 185

10.4.6 轉換探針ID 186

10.4.7 差異分析 189

10.4.8 分析結果可視化—火山圖、熱圖 192

10.5 GEO多數據集差異分析 195

第11章孟德爾隨機化分析實戰 200

11.1 什麼是孟德爾隨機化 200

11.1.1 基因型和表型 200

11.1.2 孟德爾隨機化簡介 201

11.2 孟德爾隨機化研究流程 204

11.2.1 MR研究流程七步法 204

11.2.2 MR分析數據庫介紹 207

11.3 孟德爾隨機化分析實戰 211

11.3.1 TwoSampleMR包雙樣本MR分析 211

11.3.2 MR分析網站—MR-Base實戰 219

11.4 孟德爾隨機化研究論文復現實戰 225

11.5 孟德爾隨機化分析的優勢和論文選題 236

第12章單細胞測序實戰 239

12.1 單細胞測序概述 239

12.1.1 為什麼要做單細胞測序 239

12.1.2 單細胞測序技術原理 240

12.2 單細胞測序分析流程 241

12.2.1 讀取原始數據並建立表達矩陣 241

12.2.2 消除技術誤差 242

12.2.3 細胞聚類與可視化 244

12.3 單細胞轉錄組分析實戰 248

12.3.1 安裝Seurat包 248

12.3.2 數據導入 249

12.3.3 數據質控 251

12.3.4 尋找高變基因 253

12.3.5 PCA降維 254

12.3.6 細胞聚類 258

12.3.7 尋找差異表達標記基因 260

12.3.8 細胞註釋 262

12.4 單細胞測序多樣本分析實戰 267

12.5 單細胞測序臨床應用 278