資料科學學習手冊|Python 資料處理、探索、視覺化與建模實作 (Learning Data Science: Data Wrangling, Exploration, Visualization, and Modeling with Python)
Sam Lau, Joseph Gonzalez, Deborah Nolan 著 楊新章/楊翔宇 譯
- 出版商: 歐萊禮
- 出版日期: 2026-01-28
- 定價: $980
- 售價: 7.9 折 $774
- 語言: 繁體中文
- 頁數: 616
- 裝訂: 平裝
- ISBN: 626425259X
- ISBN-13: 9786264252591
-
相關分類:
Python
- 此書翻譯自: Learning Data Science: Data Wrangling, Exploration, Visualization, and Modeling with Python (Paperback)
尚未上市,歡迎預購
相關主題
商品描述
「這本書正是我當年提出『資料科學家』這個職稱時,所希望能擁有的一本書。如果您希望投身資料科學/工程、人工智慧,或機器學習領域,就該從這裡開始。」
── DJ Patil 博士,美國首任首席資料科學家
身為一位有志成為資料科學家的讀者,能夠理解各類組織為何仰賴資料來做出關鍵決策──無論是公司在設計網站、還是市政府在改善公共服務,或者是科學家在致力於阻止疾病擴散。而您也希望具備將雜亂資料整理為可行洞見的能力。我們將這整個過程稱為「資料科學生命週期」:也就是從資料的收集、整理、分析,到導出結論的完整流程。
本書是第一本涵蓋程式設計與統計兩大基礎技能、並貫穿整個資料科學生命週期的書籍。本書的對象包括希望成為資料科學家的人、與資料科學家共事的專業人士,以及希望跨越「技術/非技術」界線的資料分析師。只要具備基本的 Python 程式設計知識,便可學習如何透過業界標準工具(如 pandas)來處理資料:
.將感興趣的問題精煉為可透過資料探究的研究問題
.執行資料蒐集,其中可能涉及文字處理、網頁爬蟲等技術
.透過資料清理、探索與視覺化,萃取出有價值的洞見
.學會使用建模來描述資料特性
.推廣研究結果,進行超出資料本身的推論
作者簡介
Sam Lau 是加州大學聖地牙哥分校 Halıcıoğlu 資料科學研究所的助理教學教授,擁有十年的教學經驗,並曾在加州大學柏克萊分校與聖地牙哥分校設計並教授旗艦級資料科學課程。
Joey Gonzalez 是加州大學柏克萊分校電機工程與電腦科學系的副教授,亦為柏克萊人工智慧研究團隊與 RISE Lab 的創始成員之一。他同時是 Turi Inc. 與 Aqueduct 的共同創辦人,致力於開發資料科學工具。
Deborah Nolan 為加州大學柏克萊分校統計學名譽教授,並擔任計算、資料科學與社會學院的學生事務副院長。
目錄大綱
前言
【第一部分 資料科學生命週期】
第一章 資料科學生命週期
生命週期的各個階段
生命週期的範例
總結
第二章 問題與資料範疇
大數據與新機會
研究母體、抽樣架構與樣本
儀器與操作程序
自然現象的量測
準確度
總結
第三章 模擬與資料設計
抽籤模型
範例:模擬選舉民調的偏誤與變異性
範例:模擬疫苗的隨機試驗
範例:空氣品質測量
總結
第四章 以摘要統計量建構模型
常數模型
最小化損失
總結
第五章 個案研究:為什麼我的公車總是拖班?
問題與範疇
資料整理
探索公車時間
建立等車時間模型
總結
【第二部分】 矩形資料
第六章 使用pandas操作資料框架
子集合選取(Subsetting)
匯總
合併
轉換
資料框架與其他資料表達法有何不同?
總結
第七章 使用SQL操作關係
子集合選取(Subsetting)
匯總
合併
轉換與共通表格運算式
總結
【第三部分】 理解資料
第八章 整理檔案
資料來源範例
檔案格式
檔案編碼
檔案大小
殼層與命令行工具
表格形狀與粒度
總結
第九章 整理資料框架
範例:整理冒納羅亞觀測站的CO2測量資料
品質檢查
缺漏的值與紀錄
轉換與時間戳記
修改結構
範例:處理餐廳安全違規資料
總結
第十章 探索性資料分析
特徵類型
觀察分布的重點
在關係中應注意的事項
多變數情境下的比較
探索準則
範例:房屋售價
總結
第十一章 資料視覺化
選擇合適的刻度以揭示結構
資料的平滑化與匯總
促進有意義的比較
融入資料設計
加入情境資訊
使用plotly繪製圖表
其他視覺化工具
總結
第十二章 案例研究:空氣品質測量有多準確?
問題、設計與範疇
尋找共址感測器
整理與清洗 AQS感測器資料
整理PurpleAir感測器資料
探索PurpleAir與AQS測量值
建立校準PurpleAir測量值之模型
總結
【第四部分】 其他資料來源
第十三章 處理文字資料
文字與任務的範例
字串處理
正規表達式
文字分析
總結
第十四章 資料交換
NetCDF資料
JSON資料
HTTP
REST
XML、HTML與XPath
總結
【第五部分】 線性建模
第十五章 線性模型
簡單線性模型
範例:空氣品質的簡單線性模型
擬合簡單線性模型
多元線性模型
擬合多元線性模型
範例:哪裡是機會之地?
數值型測量值之特徵工程
類別型測量值的特徵工程
總結
第十六章 模型選擇
過度擬合
訓練-測試切分
交叉驗證
正則化
模型偏誤與變異性
總結
第十七章 推論與預測的理論基礎
分布:母體、經驗、抽樣
假設檢定的基本概念
以自助法推論
信賴區間的基本概念
預測區間的基本概念
用於推論與預測的機率理論
總結
第十八章 案例研究:如何幫驢子秤體重?
驢子研究的問題與範圍
資料整理與轉換
探索
建立驢子體重的模型
總結
【第六部分】 分類
第十九章 分類
範例:風災倒木
建模與分類
對比例(與機率)建模
邏輯斯模型的損失函數
從機率到分類
總結
第二十章 數值最佳化
梯度下降法基礎
最小化Huber損失
凸形且可微分的損失函數
梯度下降法的變體
總結
第二十一章 個案研究:偵測假新聞
問題與範疇
取得與整理資料
探索資料
建模
總結
延伸資料
資料來源
索引








