Python與R語言數據科學實踐 Python and R for the Modern Data Scientist: The Best of Both Worlds

[加拿大/意大利]里克·J.斯卡韋塔(Rick J. Scavetta), [保加利亞] 博揚·安格洛夫(Boyan Angelov)

  • Python與R語言數據科學實踐-preview-1
  • Python與R語言數據科學實踐-preview-2
Python與R語言數據科學實踐-preview-1

商品描述

本書從數據科學的角度,講解了Python和R的語言特性以及各自的優缺點,介紹了包括包、框架和工作流在內的開源生態系統,分析了Python和R分別適用於哪些業務場景,並通過真實的案例演示如何在單個工作流中集成Python與R,使兩種語言充分發揮優勢,改善業務應用的效果。本書還提供了Python和R的對照翻譯,幫助讀者在兩種語言間快速切換。

本書適合數據科學領域有一定Python或R基礎的開發人員閱讀,能夠幫助讀者探索完成數據科學任務的新方法並改善應用效果。

作者簡介

里克·J.斯卡韦塔(RickJ.Scavetta)自2012年以来,一直担任着独立研讨会的培训师、自由职业数据科学家和机构联合创始人的角色。作为Scavetta Academy运营人员,与德国的主要研究机构也有着密切且经常性的往来。自2016年以来,他发布在DataCamp 上的在线课程已被超过200,000名学生学习,同时还为O'Reilly和Manning的高级数据科学课程做出了贡献。

 

博扬·安格洛夫(Boyan Angelov)是一位数据科学战略家和顾问,在各种学术和行业环境中拥有十余年的经验,研究涵盖的主题包括生物信息学、临床试验、人力资源技术和管理咨询。他还是XAI领域开源科学项目的贡献者,并定期在各种学术会议和社区聚会上发言。

目錄大綱

前言 xiii

第I部分 探索新的語言

第 1章 概述 3

1.1 R的起源 3

1.2 Python的起源 4

1.3 語言戰爭的開端 5

1.4 數據科學主導權之戰 6

1.5 合作與社區建設的融合 8

1.6 最後的想法 8

 

 

第II部分 兩種編程語言I:新學習一門語言

第 2章 針對Python用戶的R 13

2.1 啟動和運行R 13

2.2 項目和第三方庫 15

2.3 Tibbles的勝利 20

2.4 關於數據類型和數據探索 23

2.5 關於命名(內部) 25

2.6 列表 27

2.7 關於因子 29

2.8 如何查找 30

2.9 重復迭代 37

2.10 最後的想法 38

 

第3章 針對R用戶的Python 40

3.1 版本和構建 41

3.2 標準工具 42

3.3 虛擬環境 46

3.4 安裝第三方庫 50

3.5 筆記本 52

3.6 從編程語言角度對比Python和R 53

3.7 導入數據集 55

3.8 檢查數據 55

3.9 數據結構和描述性統計 57

3.10 數據結構:回歸基礎 58

3.11 索引和邏輯表達式 60

3.12 繪圖 61

3.13 推理統計 61

3.14 最後的想法 62

 

 

第III部分 兩種編程語言II:現代的環境

第4章 數據格式環境 65

4.1 外部第三方庫與基礎庫 67

4.2 圖像數據 69

4.3 文本數據 74

4.4 時間序列數據 77

4.4.1 基礎R 77

4.4.2 Prophet第三方庫 79

4.5 空間數據 80

4.6 最後的想法 82

 

第5章 工作流程環境 83

5.1 定義工作流程 83

5.2 探索式數據分析 85

5.2.1 統計可視化 85

5.2.2 交互可視化 88

5.3 機器學習 89

5.4 數據工程 93

5.5 報表 97

5.5.1 靜態報表 97

5.5.2 交互式報表 98

5.6 最後的想法 101

 

 

第IV部分 兩種編程語言III:學會協同

第6章 協同使用兩種語言 105

6.1 虛擬的互操作性 105

6.2 互操作性 107

6.3 深入互操作性 112

6.3.1 在R Markdown文檔中R和Python之間傳遞對象 112

6.3.2 在R Markdown文檔中調用Python 113

6.3.3 使用來源命令調用Python 114

6.3.4 使用REPL調用Python 115

6.3.5 在交互式文檔中使用動態輸入調用Python 115

6.4 最後的想法 117

 

第7章 兩種編程語言數據科學案例研究 118

7.1 24年188萬場野火 118

7.2 設置和導入數據 121

7.3 EDA和數據可視化 122

7.4 機器學習 126

7.4.1 設置Python環境 126

7.4.2 特徵工程 127

7.4.3 模型訓練 128

7.5 推理和用戶界面 129

7.6 最後的想法 131

 

附錄 Python-R雙語詞典 133

第三方庫管理 133

賦值運算符 134

類型 136

數學運算符 137

屬性 137

關鍵字 138

函數和方法 138

編碼風格和命名約定 139

數據存儲對象類比 140

數據幀 142

邏輯表達式 145

索引 147

 

關於作者 152

關於封面 152