數據科學實戰手冊 R+Python (Practical Data Science Cookbook) 数据科学实战手册 R+Python

[美]Tony Ojeda,Sean Patrick Murphy,Benjamin Bengfort,Abhijit Dasgupta

買這商品的人也買了...

商品描述

<內容介紹>

這本書是基於R和Python的數據科學項目案例集錦,內容涵蓋了基於數據科學的所有要素,包括數據採集、處理、清洗、分析、建模、可視化以及數據產品的搭建。案例包含了汽車數據分析、股票市場建模、社交網絡分析、推薦系統、地理信息分析,以及Python代碼的計算優化。通過手把手的案例解析,令讀者知其然並知其所以然。業界的數據分析師、數據挖掘工程師、數據科學家都可以讀一讀。想要瞭解實際工作中如何用數據產生價值的在校學生,或者對數據科學感興趣的人也值得一讀。

<章節目錄>
 簡介1
 理解數據科學管道3
 處理流程3
 工作原理3
 在Windows、Mac OS X、Linux上安裝R 5
 準備工作5
 處理流程5
 工作原理7
 參考資料7
 在R和RStudio中安裝擴展包7
 準備工作8
 處理流程8
 工作原理9
 更多內容10
 參考資料10
 在Linux和Mac OS X上安裝Python 10
 準備工作11
 處理流程11
 工作原理11
 更多內容11
 參考資料12
 在Windows上安裝Python 12
 處理流程13
 工作原理13
 參考資料14
 在Mac OS X和Linux上安裝Python數據分析庫14
 準備工作14
 處理流程14
 工作原理15
 更多內容16
 參考資料16
 安裝更多Python包17
 準備工作17
 處理流程17
 工作原理18
 更多內容18
 參考資料18
 安裝和使用virtualenv 19
 準備工作19
 處理流程19
 工作原理21
 更多內容21
 參考資料22
第2章汽車數據的可視化分析(R) 23
 簡介23
 獲取汽車燃料效率數據24
 準備工作24
 處理流程25
 工作原理25
 為了你的第一個項目準備好R 26
 準備工作26
 處理流程26
 工作原理26
 參考資料26
 將汽車燃料效率數據導入R 27
 準備工作27
 處理流程27
 工作原理28
 更多內容29
 參考資料30
 探索和描述燃料效率數據30
 準備工作30
 處理流程30
 工作原理32
 更多內容33
 進一步分析汽車燃料效率數據34
 準備工作34
 處理流程34
 工作原理43
 參考資料44
 研究汽車的產量以及車型44
 準備工作44
 處理流程44
 工作原理46
 更多內容47
 參考資料47
第3章模擬美式橄欖球比賽數據(R) 48
 簡介48
 準備工作49
 獲取和清洗美式橄欖球比賽數據49
 準備工作50
 處理流程50
 工作原理53
 參考資料53
 分析和理解美式橄欖球比賽數據53
 準備工作53
 處理流程53
 工作原理61
 更多內容61
 參考資料62
 構建度量攻防能力的指標62
 準備工作62
 處理流程62
 工作原理64
 參考資料65
 模擬單場由程序決定勝負的比賽65
 準備工作65
 處理流程65
 工作原理68
 模擬多場由計算決定勝負的比賽68
 準備工作68
 處理流程69
 工作原理73
 更多內容74
第4章建模分析股票市場數據(R) 75
 簡介75
 準備工作76
 獲取股票市場數據76
 處理流程77
 描述數據78
 準備工作79
 工作原理80
 更多內容81
 清洗和研究數據82
 準備工作82
 處理流程82
 工作原理87
 參考資料87
 形成相對估值法87
 準備工作87
 處理流程88
 工作原理91
 分析歷史價格篩選股票92
 準備工作92
 處理流程92
 工作原理98
第5章就業數據的可視化探索(R) 99
 簡介99
 分析前的準備100
 準備工作101
 處理流程101
 工作原理102
 參考資料102
 將就業數據導入R 103
 準備工作103
 處理流程103
 工作原理104
 更多內容104
 參考資料105
 就業數據探究105
 準備條件105
 處理流程105
 工作原理107
 參考資料107
 獲取和合併添加附加信息107
 準備工作107
 處理流程108
 工作原理109
 添加地理信息110
 準備工作110
 處理流程110
 工作原理113
 參考資料114
 獲取州和 ​​縣級水平的薪資和就業信息114
 準備工作114
 處理流程114
 工作原理116
 參考資料117
 可視化薪資的地理分佈特性117
 準備工作118
 處理流程118
 工作原理120
 參考資料121
 探究各行業工作的地理分佈情況121
 處理流程122
 工作原理123
 更多內容124
 參考資料124
 繪製地理空間的時間序列地圖124
 準備工作124
 處理流程125
 工作原理128
 更多內容128
 函數性能測試和比較128
 準備工作129
 處理流程129
 工作原理131
 更多內容132
 參考資料132
第6章運用稅務數據進行應用導向的數據分析(Python) 133
 簡介133
 應用導向方法簡介134
 準備高收入數據集的分析135
 準備工作135
 處理流程135
 工作原理136
 導入並熟悉世界各國高收入數據集136
 準備工作137
 處理流程137
 工作原理143
 更多內容144
 參考資料144
 分析並可視化美國的高收入數據集144
 準備工作144
 處理流程145
 工作原理151
 進一步分析美國的高收入階層152
 準備工作152
 處理流程152
 工作原理156
 用Jinja2匯報結果157
 準備工作157
 處理流程157
 工作原理162
 更多內容162
 參考資料163
第7章運用汽車數據進行可視化分析(Python) 164
 簡介164
 IPython入門165
 準備工作165
 處理流程165
 工作原理167
 參考資料167
 熟悉IPython Notebook 167
 準備工作168
 處理流程168
 工作原理170
 更多內容170
 參考資料171
 準備分析汽車油耗171
 準備工作171
 處理流程171
 工作原理173
 更多內容173
 參考資料174
 用Python熟悉並描述汽車油耗數據174
 準備工作174
 處理流程174
 工作原理177
 更多內容177
 參考資料177
 用Python分析汽車油耗隨時間變化趨勢177
 準備工作177
 處理流程178
 工作原理183
 更多內容184
 參考資料185
 用Python調查汽車的製造商和型號185
 準備工作185
 處理流程185
 工作原理189
 參考資料189
第8章社交網絡分析(Python) 190
 簡介190
 理解圖和網絡191
 準備用Python進行社交網絡的分析工作192
 準備工作192
 處理流程193
 工作原理193
 更多內容193
 導入網絡194
 準備工作194
 處理流程194
 工作原理196
 探索英雄網絡的子圖196
 準備工作197
 處理流程197
 工作原理199
 更多內容199
 找出強關聯200
 準備工作201
 處理流程201
 工作原理203
 更多內容204
 找出關鍵人物204
 準備工作205
 處理流程205
 工作原理208
 更多內容209
 調查全網的特徵215
 準備工作216
 處理流程216
 工作原理217
 社交網絡中的聚類和發現社群217
 準備工作217
 處理流程218
 工作原理221
 更多內容221
 可視化圖222
 準備工作222
 處理流程222
 工作原理224
第9章大規模電影推薦(Python) 225
 簡介226
 對偏好建模227
 處理流程227
 工作原理228
 理解數據229
 準備工作229
 處理流程229
 工作原理231
 更多內容231
 加載電影評分數據231
 準備工作231
 處理流程232
 工作原理234
 尋找高評分電影235
 準備工作236
 處理流程236
 工作原理237
 更多內容238
 參考資料238
 提升電影評分系統238
 準備工作238
 處理流程238
 工作原理239
 更多內容240
 參考資料240
 計算用戶在偏好空間中的距離240
 準備工作241
 處理流程241
 工作原理243
 更多內容243
 參考資料243
 計算用戶相關性244
 準備工作244
 處理流程244
 工作原理245
 更多內容246
 為特定用戶尋找最好的影評人246
 準備工作246
 處理流程246
 工作原理247
 預測用戶評分249
 準備工作249
 處理流程249
 工作原理250
 基於物品的協同過濾251
 準備工作251
 處理流程252
 工作原理253
 建立非負矩陣分解模型254
 處理流程255
 工作原理255
 參考資料256
 將數據集加載內存256
 準備工作257
 處理流程257
 工作原理258
 更多內容258
 導出SVD模型至硬盤259
 處理流程259
 工作原理260
 訓練SVD模型261
 處理流程261
 工作原理262
 更多內容263
 測試SVD模型264
 處理流程264
 工作原理264
 更多內容264
第10章獲取和定位Twitter數據(Python) 266
 簡介266
 創建Twitter應用267
 準備工作268
 處理流程268
 工作原理271
 參考資料271
 瞭解Twitter API v1.1 271
 準備工作272
 處理流程272
 工作原理273
 更多內容274
 參考資料275
 獲取粉絲和朋友信息275
 準備工作275
 處理流程275
 工作原理277
 更多內容277
 參考資料278
 提取Twitter用戶檔案278
 準備工作278
 處理流程278
 工作原理279
 更多內容279
 參考資料280
 避免Twitter速度限制280
 準備工作280
 處理流程280
 工作原理281
 存儲JSON數據至硬盤281
 準備工作282
 處理流程282
 工作原理282
 安裝MongoDB 283
 準備工作283
 處理流程283
 工作原理284
 更多內容284
 參考資料285
 利用PyMongo將用戶信息存入MongoDB 285
 準備工作285
 處理流程285
 工作原理286
 探索用戶地理信息287
 準備工作287
 處理流程287
 工作原理289
 更多內容290
 參考資料290
 利用Python繪製地理分佈圖290
 準備工作290
 處理流程291
 工作原理292
 更多內容293
 參考資料294
第11章利用NumPy和SciPy優化數值計算(Python) 295
 簡介295
 瞭解優化的步驟297
 處理流程297
 工作原理297
 更多內容298
 識別代碼中常見性能瓶頸298
 處理流程299
 工作原理299
 通讀代碼301
 準備工作302
 處理流程302
 工作原理302
 參考資料304
 利用Unix time函數剖析Python代碼305
 準備工作305
 處理流程305
 工作原理306
 參考資料306
 利用Python內建函數剖析Python代碼306
 準備工作306
 處理流程306
 工作原理307
 參考資料308
 利用IPython %timeit函數剖析Python代碼308
 處理流程308
 工作原理309
 利用line_profiler剖析Python代碼309
 準備工作310
 處理流程310
 工作原理311
 更多內容312
 參考資料312
 摘取低處的(經過優化的)果實312
 準備工作312
 處理流程312
 工作原理314
 測試NumPy帶來的性能提升315
 準備工作315
 處理流程315
 工作原理316
 更多內容317
 參考資料317
 用NumPy重寫函數317
 準備工作317
 處理流程318
 工作原理320
 用NumPy優化最內層循環322
 準備工作322
 處理流程322
 工作原理324
 更多內容325