數據科學理論與實踐

朝樂門

  • 出版商: 清華大學
  • 出版日期: 2022-12-01
  • 定價: $474
  • 售價: 8.5$403
  • 語言: 簡體中文
  • ISBN: 7302616353
  • ISBN-13: 9787302616351
  • 相關分類: Data Science
  • 下單後立即進貨 (約4週~6週)

  • 數據科學理論與實踐-preview-1
  • 數據科學理論與實踐-preview-2
  • 數據科學理論與實踐-preview-3
數據科學理論與實踐-preview-1

相關主題

商品描述

《數據科學理論與實踐》(第3版)重點講解數據科學的核心理論與代表性實踐,在編寫過程中充分借鑒了國外著名大學設立的相關課程以及全球暢銷的外文專著,同時考慮了國內相關課程定位與專業人才的培養需求。內容包括數據科學的基礎理論、理論基礎、流程與方法、技術與工具、數據產品及開發、典型案例及實踐和附錄等。 《數據科學理論與實踐》(第3版)的讀者範圍很廣,可以滿足數據科學與大數據技術、電腦科學與技術、管理工程、工商管理、數據統計、數據分析、信息管理與信息系統等專業的教師和學生(含碩士生和博士生)的教學與自學需要。

目錄大綱

目錄

第1章基礎理論

1.1術語定義

1.2研究目的

1.3研究視角

1.4發展簡史

1.5理論體系

1.6基本原則

1.7相關理論

1.8人才類型

習題

參考文獻

第2章理論基礎

2.1數據科學的學科地位

2.2統計學

2.3機器學習

2.4數據可視化

習題

參考文獻

第3章流程與方法

3.1基本流程

3.2數據加工

3.3數據審計

3.4數據分析

3.5數據可視化

3.6數據故事化

3.7數據科學項目管理

習題

參考文獻

第4章技術與工具

4.1數據科學的技術體系

4.2MapReduce

4.3Hadoop 

4.4Spark

4.5NoSQL與NewSQL

4.6R與Python

4.7數據湖與湖倉一體化

4.8發展趨勢

習題

參考文獻

第5章數據產品及開發

5.1定義

5.2主要特徵

5.3關鍵活動

5.4數據柔術

5.5數據能力

5.6數據戰略

5.7數據治理

5.8數據安全、隱私、道德與倫理

習題

參考文獻

第6章典型案例及實踐

6.1統計分析

6.2機器學習

6.3數據可視化

6.4Spark編程

6.52012年美國總統大選

習題

參考文獻

附錄A本書案例的R語言版代碼

附錄B數據科學的重要資源

附錄C大數據與數據科學領域的名人名言

附錄D術語索引

圖目錄

圖11傳統統計學中的總體與樣本的關系3

圖12DIKW 金字塔模型3

圖13數據與數值的區別5

圖14數字信號與模擬信號5

圖152010—2025年全球數據規模估計和預測數據(單位: ZB)6

圖16大數據的特徵7

圖17大數據的本質8

圖18人工智能、機器學習和深度學習的區別與聯系10

圖19數據洞見11

圖110業務數據化與數據業務化11

圖111常用驅動方式12

圖112數據的層次性12

圖113大數據生態系統示意圖13

圖114數據科學的新研究視角14

圖115Gartner技術成熟度曲線16

圖116數據科學的萌芽期(1974—2009年)16

圖117數據科學的快速發展期(2010—2013年)17

圖118數據科學的逐漸成熟期(2014年至今)18

圖119數據科學的理論體系20

圖120數據科學的主要內容20

圖121數據科學的“三世界原則”22

圖122科學研究範式23

圖123數據科學的“三個要素”及“3C精神”24

圖124計算密集型應用與數據密集型應用的區別25

圖125算法的性能與可解釋的矛盾25

圖126數據範式與知識範式的區別26

圖127數據管理範式的變化27

圖128數據的“資產”屬性27

圖129常用驅動方式29

圖130CAPTCHA方法的應用30

圖131ReCAPTCHA項目31

圖132數據與算法之間的關系31

圖133BellKors Pragmatic Chaos團隊獲得Netflix大獎32

圖134Netflix大獎公測結果33

圖135數據科學與商務智能的區別與聯系34

圖136數據科學與數據工程在企業應用中的區別與聯系35

圖137數據科學的DevOps35

圖138DevOps的流程及常用工具36

圖139DevOps生命期流程36

圖140數據科學人才類型及其收入37

圖141RStudio中編輯Markdown的窗口39

圖142數據科學家團隊42

圖143大數據人才應具備的不同知識結構44

圖144學習數據科學的四則運算原則48

圖21數據科學的理論基礎55

圖22Jeffrey D.Ullman對Conway的數據科學維恩圖的評價57

圖23Jeffrey D.Ullman提出的數據科學維恩圖57

圖24統計方法的分類(行為目的與思路方式視角)58

圖25統計學中的數據推斷59

圖26數據統計方法的類型(方法論視角)59

圖27數據統計基本方法60

圖28元分析與基本分析60

圖29GFT預測與美國疾病控制中心數據的對比62

圖210GFT估計與實際數據的誤差(2013年1月)63

圖211大數據時代的思維模式的轉變64

圖212西洋雙陸棋65

圖213機器人駕駛65

圖214機器學習的示意圖66

圖215機器學習的三要素68

圖216機器學習的類型69

圖217KNN算法的基本步驟70

圖218決策樹示例——識別鳥類73

圖219MP神經元的結構74

圖220前向神經網絡75

圖221歸納學習與分析學習77

圖222增強學習77

圖223深度學習與傳統機器學習的區別78

圖224機器學習的類型79

圖225IBM Watson80

圖226Pepper機器人81

圖227可解釋性人工智能系統82

圖228機器學習中的數據83

圖229Anscombe四組數據的可視化88

圖230John Snow所繪的地圖88

圖231在Tableau中加利福尼亞州政府收入來源數據的可視化89

圖31數據科學的基本流程93

圖32量化自我94

圖33乾凈數據與規整數據的區別95

圖34規整數據示意圖96

圖35殘差99

圖36數據分析的類型100

圖37Analytics 1.0~3.0101

圖38數據加工方法102

圖39數據審計與數據清洗104

圖310缺失數據處理的步驟104

圖311冗餘數據處理的方法104

圖312數據分箱處理的步驟與類型106

圖313均值平滑與邊界值平滑106

圖314內容集成109

圖315結構集成109

圖316數據脫敏111

圖317數據連續性的定義及重要性115

圖318可視化審計示例116

圖319Gartner分析學價值扶梯模型117

圖320數據分析的類型及方法對應關系118

圖321冰激凌的銷售量與謀殺案的發生數量119

圖322數據分析的類型121

圖323拿破侖進軍俄國慘敗而歸的歷史事件的可視化123

圖324可視分析學的相關學科124

圖325可視分析學模型124

圖326數據可視化的方法體系125

圖327視覺圖形元素與視覺通道126

圖328雷達圖示例126

圖329齊美爾連帶126

圖330視覺隱喻的示例——全球變暖127

圖331地鐵路線圖的創始人Henry Beck128

圖332Henry Beck的倫敦地鐵線路圖128

圖333視覺突出的示例129

圖334完圖法則的示例129

圖335黃金比例示意圖131

圖336黃金比例示意圖1131

圖337黃金比例示意圖2132

圖338視覺通道的精確度對比132

圖339視覺通道的可辨認性133

圖340上下文導致視覺假象1133

圖341上下文導致視覺假象2133

圖342對亮度和顏色的相對判斷容易造成視覺假象的示例134

圖343文學故事與數據故事的對比138

圖344數據的可視化和數據的故事化的區別和聯系138

圖345數據故事的金字塔模型141

圖346數據故事化的作用143

圖347數據故事認知的PCA模型143

圖348KISS原則144

圖349項目管理的主要內容145

圖412017大數據產業全景圖152

圖42大數據參考架構154

圖43MapReduce執行過程156

圖44MapReduce對中間數據的處理160

圖45以MapReduce為核心和以YARN為核心的軟件棧對比162

圖46下一代MapReduce框架163

圖47Apache的Hadoop項目163

圖48Hadoop生態系統164

圖49Hadoop MapReduce數據處理過程165

圖410Apache Hive官方網站167

圖411Apache Pig官方網站168

圖412Apache Mahout官方網站169

圖413Apache HBase官方網站169

圖414HBase與Hadoop項目170

圖415HBase的邏輯模型171

圖416Apache ZooKeeper官方網站172

圖417Apache Flume官方網站173

圖418Apache Sqoop官方網站174

圖419Spark技術架構175

圖420Spark的基本流程176

圖421Spark的執行步驟181

圖422Lambda 架構的主要組成部分183

圖423傳統關系數據庫的優點與缺點184

圖424關系數據庫技術與NoSQL技術之間的關系186

圖425NoSQL數據分佈的兩個基本途徑187

圖426分片處理188

圖427主從復制189

圖428對等復制190

圖429數據不一致性191

圖430CAP理論192

圖431CAP理論的應用策略192

圖432Memcached官方網站195

圖433一致性散列的分配方式196

圖434服務器增加時的變化197

圖435Databricks的Delta Lake數據管理架構201

圖436雲計算的演變過程202

圖437數據管理的新變化204

圖4382021年數據科學及機器學習平臺的魔術象限207

圖439基於Databricks的統一分析平臺的架構209

圖51數據產品開發中的數據與數據柔術216

圖52知識範式與數據範式218

圖53數據產品的多樣性219

圖54數據產品的層次性220

圖55Google全球商機洞察221

圖56數據產品鏈222

圖57傳統產品開發與數據產品開發的區別223

圖58D.J.Patil223

圖59UI(User Interface)設計方案與設計思維225

圖510Google搜索的用戶體驗226

圖511人與電腦圖像內容識別能力的不同226

圖512Amazon Mechanical Turk平臺228

圖513一個HIT的生命周期228

圖514基於人與電腦的數據處理成本曲線229

圖515亞馬遜的數據產品——其他商家(Other Sellers)230

圖516LinkedIn的數據產品——你可能認識的人們231

圖517LinkedIn的數據產品——你的觀眾是誰231

圖518逆向交互定律232

圖519LinkedIn的數據產品——崗位推薦234

圖520LinkedIn的數據產品——幫助你的朋友找到工作235

圖521Facebook的良好用戶體驗235

圖522DMM模型基本思路238

圖523CMM基本思想239

圖524CMM成熟度等級240

圖525DMM關鍵過程域241

圖526DMM層級劃分及描述243

圖527IDEAL模型245

圖528組織機構數據管理能力成熟度評估結果的可視化246

圖529DoD數據戰略框架247

圖530數據戰略與數據管理目標的區別248

圖531數據戰略的目標248

圖532數據戰略的側重點249

圖533數據戰略的範疇249

圖534數據管理與數據治理的區別250

圖535IBM提出的企業數據管理的範疇251

圖536數據治理的PDCA模型252

圖537DGI數據治理框架253

圖538P2DR模型255

圖539從歐洲大陸的空戰中返回的轟炸機256

圖61KMeans算法的基本步驟287

圖62奧巴馬2012年總統競選芝加哥總部307

圖63George Clooney308

圖64Sarah Jessica Parker308

圖65奧巴馬及“快速捐贈計劃”310

圖66奧巴馬通過Reddit與選民互動311

圖672012年美國總統競選財務數據官方網站312

圖A1女性體重與身高的線性回歸分析334

圖A2工資數據的可視化347

圖A3起飛延誤時間359

圖A4到達延誤時間359

圖A5捐助人職業、黨派及捐助額度分析372

圖A6分箱處理後的捐款數據可視化373

圖A7捐款日期與金額的可視化374

圖A8捐款月份與金額變化分析375

圖A9投票結果的可視化377

表目錄

表11結構化數據、非結構化數據與半結構化數據的區別與聯系5

表12數據量及大小6

表13某位數據科學家的畫像40

表21參數估計與假設檢驗的主要區別59

表22統計學與機器學習的術語對照64

表23機器學習的相關學科69

表24已知6部電影的類型及其中出現的接吻次數和打鬥次數71

表25已知電影與未知電影的距離71

表26分析學習和歸納學習的比較77

表27深度學習與傳統機器學習的應用場景比較79

表28Anscombe的四組數據87

表31測試數據A96

表32測試數據B96

表33測試數據C96

表34Pew論壇部分人員信仰與收入數據統計(規整化處理之前)97

表35Pew論壇部分人員信仰與收入數據統計(規整化處理之後)97

表36探索性統計中常用的集中趨勢統計量99

表37探索性統計中常用的離散程度統計量99

表38探索性統計中常用的數據分佈統計量99

表39常見的數據變換策略107

表310過濾式方法與包裹式方法的區別107

表311十進制第一數字的使用概率114

表312數據分析中常見錯誤121

表313數據類型及所支持的操作類型130

表314數據類型與視覺通道的對應關系130

表315數據故事與文學故事的區別139

表316數據故事化的相關概念及其區別142

表317數據科學項目中的主要角色及其任務145

表41Transformation常用函數178

表42Action常用函數178

表43RDD的存儲級別179

表44Spark數據類型和R數據類型之間的映射關系182

表45較有代表性的雲數據庫產品186

表46NoSQL數據庫中常用的數據模型187

表47R與Python對比198

表48數據湖與數據倉庫的對比200

表49雲計算的基本類型203

表410數據科學平臺的分類206

表411數據科學及機器學習平臺的魔術象限208

表51數據轉換與數據加工的區別217

表52Google公司的十大產品和服務217

表53數據管理原則237

表54數據管理成熟度模型的過程域分類242

表55信息系統安全等級及保護基本要求254

表56腎結石治療數據分析——兩種治療方案的分別統計258

表57兩種治療方案的匯總統計258

表61數據集women268

表62Protein數據集286

表63工資信息294

表64各字段的名稱及含義312

表A1Spark版本差異性351

表A2Spark與R的數據類型對比352

表A3SparkR與sparklyr比較360