現代數據科學（R語言·第2版） Modern Data Science with R, 2/e

Name: 現代數據科學（R語言·第2版）
Price: 653 TWD
Availability: InStock
Author: Benjamin S. Baumer，Daniel T. Kaplan，Nicholas J. H
ISBN: 7302598797

Benjamin S. Baumer，Daniel T. Kaplan，Nicholas J. H

預覽內頁

出版商: 清華大學
出版日期: 2022-03-01
定價: $768
售價: 8.5 折 $653
語言: 簡體中文
頁數: 552
裝訂: 平裝
ISBN: 7302598797
ISBN-13: 9787302598794
相關分類: R 語言、Data Science
此書翻譯自: Modern Data Science with R, 2/e

立即出貨

商品描述

本書對上一版做了全面更新，與日益強大的tidyverse套包保持同步，納入sf、purrr、 tidymodels和tidytext等包中的新功能。代碼的內容和格式都經過修改，以方便閱讀和理解。部分章節被拆分、重新組織和重新構思，以適應不斷變化的實踐環境。

目錄大綱

第Ⅰ部分數據科學簡介

第1章序言：為什麽有數據科學？ 2

1.1　數據科學是什麽 3

1.2　案例學習：棒球資料統計分析

的演變 5

1.3　數據集 6

1.4 擴展資源 7

第2章數據可視化 8

2.1 2012年聯邦大選周期 8

2.1.1 這兩組數據有區別嗎？ 10

2.1.2 圖形變化 11

2.1.3 檢查變量之間的關系 12

2.1.4 網絡 14

2.2 組成數據圖形 15

2.2.1 數據圖形分類 15

2.2.2 顏色 17

2.2.3 剖析數據圖形 19

2.3 數據圖形的重要性：

挑戰者號 21

2.4 創建有效的演示 25

2.5 更廣闊的數據可視化世界 25

2.6 擴展資源 27

2.7 練習題 28

2.8 附加練習 29

第3章圖形語法 30

3.1 數據圖形語法 30

3.1.1 畫面 31

3.1.2 刻度 33

3.1.3 指南 35

3.1.4 方面 35

3.1.5 層次 36

3.2 R中的規範數據圖形 38

3.2.1 單變量顯示 38

3.2.2 多元顯示 40

3.2.3 地圖 46

3.2.4 網絡 46

3.3 擴展示例：歷史嬰兒名字 47

3.3.1 至今仍活著的人口的

百分比 48

3.3.2 最普通的女性名字 53

3.4 擴展資源 56

3.5 練習題 56

3.6 附加練習 58

第4章在一張表中整理數據 59

4.1 數據整理語法 59

4.1.1 select()和filter() 59

4.1.2 mutate()和rename() 62

4.1.3 arrange() 64

4.1.4 用group_by()進行

summarize() 66

4.2 擴展示例：Ben在大都會隊

(Mets)的時間 67

4.3 擴展資源 75

4.4 練習題 76

4.5 附加練習 79

第5章多張表的數據整理 80

5.1 inner_join() 80

5.2 left_join() 82

5.3 擴展示例：Manny Ramirez 83

5.4 擴展資源 90

5.5 練習題 90

5.6 附加練習 92

第6章數據規整 93

6.1 規整數據 93

6.1.1 動機 93

6.1.2 規整的數據是什麽 95

6.2 重塑數據 101

6.2.1 用於從寬到窄以及從窄到

寬轉換的數據動詞 103

6.2.2 pivot_wider()函數 103

6.2.3 pivot_longer()函數 103

6.2.4 list-column 104

6.2.5 示例：中性姓名 108

6.3 命名約定 110

6.4 數據獲取 111

6.4.1 數據表友好的格式 111

6.4.2 API 115

6.4.3 清洗數據 115

6.4.4 示例：日本核反應堆 121

6.5 擴展資源 124

6.6 練習題 124

6.7 附加練習 127

第7章迭代 128

7.1 向量化操作 128

7.2 利用dplyr實現across() 131

7.3 map()函數族 132

7.4 在一維向量上迭代 133

7.4.1 迭代已知函數 133

7.4.2 迭代任意函數 134

7.5 在子組上迭代 135

7.5.1 示例：期望獲勝率 136

7.5.2 示例：年度領導者 138

7.6 模擬 140

7.7 擴展示例：與BMI相關的

因子 142

7.8 擴展資源 145

7.9 練習題 145

7.10 附加練習 145

第8章數據科學倫理學 146

8.1 引言 146

8.2 真實的謊言 146

8.2.1 堅持你的立場 147

8.2.1 全球溫度 147

8.2.3 COVID-19報道 148

8.3 數據科學在社會中的作用 149

8.4 職業道德的一些設置 150

8.4.1 CEO 150

8.4.2 就業歧視 150

8.4.3 “Gaydar” 151

8.4.4 種族預測 151

8.4.5 數據爬取 152

8.4.6 可重復的電子表格分析 152

8.4.7 藥物危害 152

8.4.8 法律談判 153

8.5 道德行為的一些指導性原則 153

8.5.1 CEO 154

8.5.2 就業歧視 154

8.5.3 “Gaydar” 154

8.5.4 種族預測 154

8.5.5 數據爬取 155

8.5.6 可重復的電子表格分析 155

8.5.7 藥物危害 155

8.5.8 法律談判 156

8.6 算法偏差 157

8.7 數據與泄露 157

8.7.1 重新識別和泄露避免 157

8.7.2 安全的數據存儲 158

8.7.3 數據爬取和使用條款 158

8.8 再現性 159

8.9 集體的道德準則 160

8.10 職業道德行為準則 161

8.11 擴展資源 161

8.12 練習題 162

8.13 附加練習 163

第Ⅱ部分統計與建模

第9章統計基礎 166

9.1 樣本和總體 166

9.2 樣本統計 169

9.3 自舉 173

9.4 異常值 176

9.5 統計模型：方差解釋 178

9.6 混淆和解釋其他因素 181

9.7 p值的風險 184

9.8 擴展資源 186

9.9 練習題 187

9.10 附加練習 187

第10章預測建模 188

10.1 預測建模 189

10.2 簡單的分類模型 190

10.3 評價方法 197

10.3.1 權衡偏差與方差 197

10.3.2 交叉驗證 197

10.3.3 混淆矩陣和ROC

曲線 198

10.3.4 定量響應的預測誤差

測量 200

10.3.5 示例：收益模型評估 201

10.4 擴展示例：誰患有

糖尿病？ 204

10.5 擴展資源 207

10.6 練習題 207

10.7 附加練習 208

第11章監督學習 209

11.1 非回歸分類器 209

11.1.1 決策樹 210

11.1.2 隨機森林 217

11.1.3 最近鄰 218

11.1.4 樸素貝葉斯 221

11.1.5 人工神經網絡 222

11.1.6 集成方法 224

11.2 參數調整 224

11.3 示例：收入模型redux的

評價 226

11.4 擴展示例：這次誰得了

糖尿病？ 230

11.5 正則化 235

11.6 擴展資源 237

11.7 練習題 238

11.8 附加練習 239

第12章無監督學習 240

12.1 聚類 240

12.1.1 層次聚類 241

12.1.2 k-means 245

12.2 降維 246

12.2.1 直覺法 248

12.2.2 奇異值分解 249

12.3 擴展資源 254

12.4 練習題 254

12.5 附加練習 255

第13章模擬 256

13.1 逆向推理 256

13.2 擴展示例：癌症分組 257

13.3 隨機化函數 259

13.4 模擬可變性 261

13.4.1 部分計劃的會合 261

13.4.2 工作報告 262

13.4.3 餐廳健康衛生等級 264

13.5 隨機網絡 267

13.6 模擬關鍵原則 267

13.6.1 設計 267

13.6.2 模塊化 267

13.6.3 再現性和隨機數種子 267

13.7 擴展資源 270

13.8 練習題 270

13.9 附加練習 271

第Ⅲ部分數據科學專題

第14章動態定製數據圖形 274

14.1 使用D3.js和htmlwidgets

豐富Web內容 274

14.1.1 Leaflet 275

14.1.2 Plot.ly 275

14.1.3 DataTables 276

14.1.4 dygraphs 277

14.1.5 streamgraphs 277

14.2 動畫 278

14.3 flexdashboard 279

14.4 基於Shiny的交互式Web

應用程序 281

14.4.1 示例：披頭士名字的

交互展示 281

14.4.2 反應式編程的更多

知識 282

14.5 ggplot2圖形的定製 285

14.6 擴展示例：吃熱狗 289

14.7 擴展資源 294

14.8 練習題 294

14.9 附加練習 295

第15章使用SQL查詢數據庫 296

15.1 從dplyr 到SQL 296

15.2 平面文件數據庫 300

15.3 SQL 302

15.4 SQL數據操作語言 303

15.4.1 SELECT...FROM 305

15.4.2 WHERE 307

15.4.3 GROUP BY 310

15.4.4 ORDER BY 312

15.4.5 HAVING 313

15.4.6 LIMIT 315

15.4.7 JOIN 316

15.4.8 UNION 321

15.4.9 子查詢 321

15.5 擴展示例：FiveThirtyEight

航班 323

15.6 SQL與R 331

15.7 擴展資源 331

15.8 練習題 331

15.9 附加練習 333

第16章數據庫管理 334

16.1 構建高效的SQL數據庫 334

16.1.1 創建新的數據庫 334

16.1.2 創建表 335

16.1.3 鍵 336

16.1.4 索引 337

16.1.5 查詢計劃 338

16.1.6 分區 340

16.2 更改SQL數據 340

16.2.1 更改數據 341

16.2.2 增加數據 341

16.2.3 從文件導入數據 342

16.3 擴展示例：創建數據庫 342

16.3.1 抽取 342

16.3.2 轉換 342

16.3.3 載入MySQL數據庫 343

16.4 可擴展性 346

16.5 擴展資源 346

16.6 練習題 346

16.7 附加練習 347

第17章使用地理空間數據 348

17.1 動機：地理空間數據有什麽了不起的？ 348

17.2 空間數據結構 351

17.3 製作地圖 353

17.3.1 靜態地圖 353

17.3.2 投影 354

17.3.3 基於leaflet的動態地圖 360

17.4 擴展示例：國會選區 362

17.4.1 選舉結果 362

17.4.2 國會選區 365

17.4.3 整合所有數據 367

17.4.4 使用ggplot2 368

17.4.5 使用leaflet 369

17.5 有效的地圖：如何避免撒謊 370

17.6 投影多邊形 371

17.7 有效利用其他技術 373

17.8 擴展資源 374

17.9 練習題 374

17.10 附加練習 374

第18章地理空間計算 375

18.1 地理空間操作 375

18.1.1 地理編碼、路線和距離 375

18.1.2 幾何運算 378

18.2 地理空間聚合 384

18.3 地理空間聯接 386

18.4 拓展示例：MacLeish中的路徑海拔 387

18.5 擴展資源 391

18.6 練習題 391

18.7 附加練習 392

第19章文本數據 393

19.1 使用Macbeth的正則表達式 393

19.1.1 解析蘇格蘭戲劇文本 393

19.1.2 Macbeth中的生與死 397

19.2 擴展示例：分析arXiv.org的文本數據 399

19.2.1 語料庫 402

19.2.2 詞雲 404

19.2.3 情感分析 405

19.2.4 bigrams和N-grams 407

19.2.5 文檔詞項矩陣 408

19.3 獲取文本 412

19.4 擴展資源 415

19.5 練習題 416

19.6 附加練習 418

第20章網絡科學 419

20.1 網絡科學引言 419

20.1.1 定義 419

20.1.2 網絡科學簡史 420

20.2 擴展示例：Kristen Stewart的六度空間理論 424

20.2.1 收集好萊塢數據 424

20.2.2 構建好萊塢網絡 427

20.2.3 建立Kristen Stewart預言 430

20.3 PageRank 433

20.4 擴展示例：1996年男子大學籃球賽 435

20.5 擴展資源 442

20.6 練習題 442

20.7 附加練習 443

第21章結束語：走向“大數據” 444

21.1 大數據的一些概念 444

21.2 更大數據的工具 446

21.2.1 大數據的數據和內存結構 446

21.2.2 編譯 447

21.2.3 並行和分佈式計算 447

21.2.4 SQL的替代方案 454

21.3 R的替代方案 455

21.4 結束語 456

21.5 擴展資源 456

第Ⅳ部分附錄

附錄A 本書使用的包 458

附錄B R和RStudio簡介 465

附錄C 算法思維 483

附錄D 可再現性分析和工作流程 495

附錄E 回歸建模 504

附錄F 安裝數據庫服務器 524

現代數據科學（R語言·第2版） Modern Data Science with R, 2/e

Benjamin S. Baumer，Daniel T. Kaplan，Nicholas J. H

商品描述

目錄大綱

類似商品