Python數據科學實戰 Practical Data Science with Python: Learn tools and techniques from hands-on examples to extract insights from data

George, Nathan 殷海英

商品描述

數據科學如今已經深入到我們生活中的各個領域,行業從業者都應該懂得一些數據科學的知識。那麽如何能夠快速掌握這門流行的技術呢?通過系統地學習本書和動手實踐,可以滿足這個需求。本書共六個部分,用通俗的語言和生動的例子為讀者展現數據科學的魅力。第一部分介紹了數據科學的基本知識,讓讀者可以輕松瞭解它的流程與原理。第二部分,通過幾個例子為讀者介紹如何處理各種數據,從電子表格到網絡抓取,涵蓋了工作中的常用數據處理方法。第三部分,使用通俗易懂的語言為讀者介紹數據科學中使用到的統計學知識。第四部分,通過示例介紹機器學習技術,讓讀者可以根據以往的數據對未來進行預測。在本書的後兩部分,為讀者介紹如何對文本進行分析及製作生動的報告,並討論了數據科學的未來發展趨勢。

目錄大綱

第1部分 簡介和基礎知識
第1章 數據科學簡介 2
數據科學的起源 2
頂級數據科學工具和技能 5
GUI和平臺 9
雲端工具 10
統計方法和數學 12
數據的收集、組織和準備 12
軟件開發 13
業務理解與溝通 13
數據科學及相關專業 13
選擇如何專業化 16
數據科學項目方法論 18
進一步閱讀數據科學項目管理策略 20
本章測試 21
本章小結 21
第2章 Python入門 23
使用Anaconda安裝並使用Python 23
運行Python代碼 25
為什麽使用命令行 31
安裝並使用代碼文本編輯器—VS Code 33
安裝Python包和創建虛擬環境 35
Python基礎 38
列表、元組、集合和字典 45
循環和遍歷 49
布爾值和條件 51
包和模塊 53
函數 55
類 57
多線程和多進程 58
軟件工程最佳實踐 59
開發技巧 62
本章測試 64
本章小結 64
第2部分 處理數據
第3章 Python中的SQL和內置文件處理模塊 67
本章主要內容 67
使用基礎Python加載、讀取和寫入文件 67
在Python中使用SQLAlchemy包 85
本章測試 87
本章小結 88
第4章 使用Pandas和NumPy加載和整理數據 89
對iTunes數據進行整理和分析 89
使用Pandas進行探索性數據分析(EDA)和基本數據清理 94
清洗數據 104
使用GroupBy 115
將DataFrame寫入磁盤 116
分析比特幣價格數據 117
瞭解NumPy基礎知識 119
本章測試 122
本章小結 122
第5章 探索性數據分析和可視化 123
Python中的EDA和可視化庫 123
使用Seaborn和pandas執行EDA 124
使用Python EDA包 140
使用可視化最佳實踐 148
為共享及報告保存繪圖 157
使用Plotly進行繪圖 158
本章測試 161
本章小結 161
第6章 數據處理文檔和電子表格 163
解析和處理Word和PDF文檔 163
使用Excel文件讀取和寫入數據 176
分析數據 181
使用openpyxl處理Excel文件 182
本章測試 184
本章小結 184
第7章 網頁抓取 186
瞭解互聯網的結構 187
執行簡單的網頁抓取 189
從抓取的頁面中解析HTML 196
使用XPath、lxml和bs4從網頁中提取數據 199
從多個頁面收集數據 203
使用API收集數據 205
使用API包裝器 207
網絡抓取的道德規範及合法性 212
本章測試 213
本章小結 214
第3部分 數據科學中的統計學
第8章 概率、分佈和抽樣 216
概率基礎 216
分佈 223
從數據中採樣 234
本章測試 237
本章小結 238
第9章 數據科學的統計檢驗 239
統計檢驗基礎和樣本比較檢驗 239
其他統計檢驗 248
本章測驗 251
本章小結 251
第4部分 機器學習
第10章 為機器學習準備數據:特徵選擇、特徵工程和降維 253
機器學習的類型 253
特徵選擇 255
單變量統計特徵選擇 260
特徵工程 270
數據的清洗和準備 271
轉換數值數據 277
提取日期時間特徵 281
分箱(Binning) 282
熱獨編碼和標簽編碼 283
降維 287
本章測試 291
本章小結 292
第11章 機器學習分類 293
機器學習分類算法 293
邏輯回歸的工作原理 297
使用sklearn檢查特徵的重要性 299
使用統計模型進行邏輯回歸 301
最大似然估計、優化器和邏輯回歸算法 304
正則化 307
超參數和交叉驗證 308
大數據的邏輯回歸(和其他模型) 310
用於二元分類的樸素貝葉斯 311
k-最近鄰(KNN) 313
多類分類 315
選擇正確的模型 319
“沒有免費的午餐”定理 319
模型的計算復雜度 320
本章測試 321
本章小結 321
第12章 評估機器學習分類模型和分類抽樣 322
使用指標評估分類算法的性能 322
採樣和平衡分類數據 339
本章測試 344
本章小結 344
第13章 帶有回歸的機器學習 345
線性回歸 345
評估回歸模型 354
線性回歸假設 358
大數據回歸模型 362
預測 363
本章測試 366
本章小結 366
第14章 優化模型和使用AutoML 368
使用搜索方法進行超參數優化 368
使用ML模型優化特徵數量 377
使用PyCaret進行AutoML 378
本章測試 384
本章小結 384
第15章 基於樹的機器學習模型 385
決策樹 385
隨機森林 390
基於樹的方法的特徵重要性 395
增強樹模型:AdaBoost、XGboost、LightGBM和CatBoost 397
在GPU上訓練增強模型 404
LightGBM 405
CatBoost 408
使用提前停止的算法 410
本章測試 411
本章小結 411
第16章 支持向量機(SVM)機器學習模型 413
SVM是如何工作的 414
使用SVM 416
本章測試 421
本章小結 421
第5部分 文本分析和報告
第17章 使用機器學習進行聚類 423
使用k-means聚類 423
聚類指標 424
優化k-means中的K 425
檢查聚類 429
層次聚類 433
DBSCAN 436
其他無監督方法 438
本章測試 439
本章小結 439
第18章 處理文本 441
文本預處理 441
基本的文本分析 453
無監督學習 463
監督學習 467
本章測試 474
本章小結 474
第6部分 總結
第19章 講述數據故事和自動報告及儀表板 477
用數據講故事 477
自動報告和儀表板 484
本章測試 491
本章小結 491
第20章 道德與隱私 492
機器學習算法的道德 492
偏見 492
數據隱私 495
將數據科學用於公共利益 501
其他道德考慮 502
本章測試 504
本章小結 504
第21章 數據科學的發展與未來 506
博客、newsletter、書籍和學術資源 506
在線學習平臺 510
雲服務 511
其他值得關註的內容 511
保持與時俱進的策略 512
其他沒有在本書中涉及的內容 512
數據科學的未來發展 514
本章小結 515