東京大學資料科學家養成全書:使用 Python 動手學習資料分析 東京大学のデータサイエンティスト育成講座

塚本邦尊、山田典一 、大澤文孝 著 莊永裕 譯

  • 出版商: 臉譜
  • 出版日期: 2020-06-11
  • 定價: $780
  • 售價: 9.0$702
  • 語言: 繁體中文
  • 頁數: 448
  • 裝訂: 平裝
  • ISBN: 9862358327
  • ISBN-13: 9789862358320
  • 相關分類: PythonData Science
  • 立即出貨 (庫存 < 4)

買這商品的人也買了...

商品描述

「大數據會消失,資料科學不會」
「所有的科學都是資料科學」
―――東京大學松尾豐研究室人氣講座書籍化―――

★東京大學為期2年、超過1800人報名、400人上課的課程講義,資料科學家基礎講座!
★使用Python學習基本的程式撰寫,邊做邊學,培養資料科學技能!
★收錄大量練習題和綜合題演練,打好理論基本功,具體應用於實務現場!
★體驗資料科學的魅力,培養整合跨領域課題的創造力!

本書廣泛說明資料科學不可不知的基礎事項,蒐羅豐富的重要關鍵知識和好用的參考資料,希望成為學習資料科學這門學科的地圖與羅盤。
書中主要使用Python來學習基本的程式撰寫技巧,以及資料的取得、讀取、操作等,含括各式各樣Python函式庫的使用方式、機率統計的手法、機器學習(監督式學習、非監督式學習、效能調校),還有讓Python高速化的方法和Spark的簡單操作等。操作的資料包括市場行銷的資料和紀錄、金融的時間序列資料等,並介紹將它們模型化之前的加工手法。對於有志成為資料科學家的讀者來說,透過本書,能夠學習不可或缺的必備技能。只要能培養基本的思考方式與知識,即使面對未知的問題,也可以一邊研究一邊學習。
此外,本書說明如何實際將現場的資料進行加工與分析,如何具體運用於市場行銷或金融等,使用何種手法來撰寫程式比較好,以及組合那些程式的技巧和流程。除了理論解說,也介紹實務性的使用方法,可立即上手應用。
一般的市場行銷書籍,以市場行銷的手法為中心而缺乏實作方法;另一方面,機器學習的書籍雖然介紹了理論與實作,但未說明市場行銷的手法等實務性的使用方式,大多為某個特定領域的專門書籍。本書整體網羅了對於資料科學來說必不可少的課題,還能立即嘗試實作。
另外一大特點是,書中收錄大量實作的練習題,以實際的問題為前提來思考並動手實踐。馬上學,馬上練,馬上懂!

◎本書的出版緣由

本書以東京大學2017年至2018年的「全球消費者情報捐贈講座」(グローバル消費インテリジェンス寄付講座)講義和線上課程教材為基礎,用簡潔易懂的形式彙整編纂而成。
這個廣受歡迎的熱門講座首度書籍化,原因有三:
首先,希望讓更多讀者了解資料科學,培養資料分析技能。資訊時代各行各業都需要資料分析的人才,了解應該具備哪些知識、有何種處理手法、能達成什麼樣的目標,善用資料科學將是致勝的關鍵。
其次,雖然線上資源豐富又方便取得,但並非隨時都能在線上學習。藉由書籍的形式,可因地制宜反覆演練複習。
第三,以學習效果來說,書本的編排有助於深入思考,成效更佳。

◎本書的目標讀者

˙以有程式設計經驗、完成理科大一大二程度數學者為對象,以及對資料科學有高度學習意願的一般人士
˙藉由本書,可掌握資料科學入門程度至中級程度的內容,已達中級程度以上的讀者也能參酌本書來複習資料分析相關知識
˙對於目前備受矚目的深度學習,可透過本書掌握學習深度學習之前必需的基礎技能

◎本書的目的

所謂的科學,是從世界上混沌的現象裡找出本質,逐步解決各種問題。從日漸龐大的資料當中,使用科學的力量,解決各式各樣問題的,便是資料科學。
資料科學不僅只是數學(統計、機率、機器學習等),更借用了IT等各種力量,不斷挑戰世界上的難題與背後課題的綜合領域。
活用這樣資料科學和人工智慧的力量,減少浪費與沒有效率的事物,進一步創造出新價值,讓這個世界更加美好。

作者簡介

【作者】

塚本邦尊  Kunitaka Tsukamoto
目前的工作是在某金融機關的研究開發部門,負責從分析環境建構到資料的預處理自動化、分析、演算法開發與實作、交易資金與驗證、定型報告製作等。雖然每天在奈秒(10億分之1秒)的世界裡與紐約、倫敦的猛者搏鬥(?),但還不是很了解HFT(高頻交易)是否有助於這個世界,反而希望這項最尖端的技術能在IoT或其他領域提供幫助。
此外,做為個人事業,擔任本課程的講師,以及各企業(製造商、系統公司、廣告代理商等)的分析支援與建議等,兼任某電腦相關研究所的技術院士。
學生時代主修數學,目前為止任職的相關業界包括系統公司、廣告代理商、市場行銷、顧問企業等。一直在使用的開發工具為VisualStudio、RStudio、JupyterNotebook等,還有C#、SQL、VBA、R、Python、Shell、SAS等。
近來參與許多關於FPGA的專案,逐步學習硬體方面(FPGA、Verilog、Vivado等)與網路方面(WireShark等),每天使用AWS等圓端環境。最近有空閒時,也會用Raspberry Pi學習機器人科學,閱讀各式各樣的書籍。

山田典一  Norikazu Yamada
Creative Intelligence股份有限公司代表董事。
在Yahoo! Japan、BrainPad、GREE、外商廣告代理公司等,進行活用資料挖掘、機器學習的進階分析工作。從資訊的價值觀點出發,考察智慧管理的正確意義、智慧流程與機器學習的融合可能性,獲得日本競爭情報學會(The Japan Society of Competitive Intelligence)最優秀論文獎(2015年)。
目前進行活用機器學習、決策科學、模擬科學的進階決策支援之技術研究開發、機器學習的導入顧問、資料活用諮詢。

大澤文孝  Fumitaka Osawa
技術文件寫作人員。程式設計師。
資訊處理技術者(資訊安全專家、網路專家)。
多在雜誌和書籍等撰寫以開發者為目標讀者的文章。主要負責伺服器、網路、Web程式設計、資訊安全的文章。近年來從事Web系統的設計與開發。
主要著作:「ちゃんと使える力を身につける Webとプログラミングのきほんのきほん」、「ちゃんと使える力を身につける Javaプログラミング入門」(以上由マイナビ出版)、「いちばんやさしいPython入門教室」、「Angular Webアプリ開発 スタートブック」(以上由Sotechsha出版)、「AWS Lambda実践ガイド」、「できるキッズ 子どもと学ぶJavaScriptプログラミング入門」(以上由インプレス出版)、「Amazon Web Services完全ソリューションガイド」、「Amazon Web Servicesグラウドデザインパターン実装ガイド」(以上由日經BP出版)、「UIまで手の回らないプログラマのためのBootstrap 3実用ガイド」、「prototype.jsとscript.aculo.usによるリッチWebアプリケーション開発」(以上由翔泳社出版)、「TWE-Liteではじめるセンサー電子工作」、「TWE-Liteではじめるカンタン電子工作」、「Amazon Web ServicesではじめるWebサーバ」、「Python10行プログラミング」、「『sakura.io』ではじめるIoT電子工作」(以上由工學社出版)、「たのしいプログラミング!: マイクラキッズのための超入門」(以上由學研プラス出版)。


【監修】

中山浩太郎  Kotaro Nakayama
2000年10月  就任關西綜合情報研究所(股份公司)代表董事社長
2002年4月  就任同志社女子大學兼任講師
2007年3月  取得大阪大學資訊科學研究所博士學位
2007年4月  就任大阪大學資訊科學研究所特任研究員
2008年4月  就任東京大學知識結構化中心(知の構造化センター)特任助理教授
2012年4月  就任東京大學知識結構化中心特任講師
2014年12月 就任東京大學工學院技術經營戰略學研究所特任講師


【協力】

松尾豐  Yutaka Matsuo
1997年  東京大學工學部電子情報工學科畢業
2002年  取得東京大學研究所工學博士學位。同年起就任產業技術綜合研究所研究員
2005年10月  史丹佛大學客座研究員
2007年10月  東京大學工學院研究所綜合研究機構/知識結構化中心/技術經營戰略學研究所副教授
2014年  東京大學工學院技術經營戰略學研究所「全球消費者情報捐贈講座」共同代表暨特任副教授
2002年獲頒人工智慧學會論文獎、2007年獲頒情報處理學會長尾真紀念特別獎
2012年~2014年擔任人工智慧學會編輯委員長,現為倫理委員長
專長領域為人工智慧、Web挖掘、大數據分析、深度學習

目錄大綱

序言

Chapter 1  本書的概要與Python的基礎
1-1     資料科學家的工作
1-1-1    資料科學家的工作
1-1-2    資料分析的流程
1-1-3    本書的架構
1-1-4    對閱讀本書有幫助的文獻
1-1-5    動手來學習吧
1-2    Python的基礎
1-2-1    Jupyter Notebook的使用方法
1-2-2    Python的基礎
1-2-3    串列型別與字典型別
1-2-4    條件分歧與迴圈
    Column  format寫法與%寫法
1-2-5    函式
  Practice  練習問題1-1
            練習問題1-2
1-2-6    類別與實例
    Practice  第1章 綜合問題

Chapter 2  科學計算、資料加工、圖形描繪函式庫的使用方法之基礎
2-1  用於資料分析的函式庫
2-1-1  函式庫的匯入
2-1-2  Magic Command
2-1-3  匯入用於本章的函式庫
2-2  Numpy的基礎
2-2-1  Numpy的匯入
2-2-2  陣列的操作
2-2-3  亂數
        Column  Numpy非常快
2-2-4  矩陣
        Practice  練習問題2-1
               練習問題2-2
               練習問題2-3
2-3  Scipy的基礎
2-3-1  Scipy的函式庫匯入
2-3-2  矩陣運算
2-3-3  牛頓法
        Practice  練習問題2-4
               練習問題2-5
               練習問題2-6
2-4  Pandas的基礎
2-4-1  Pandas的函式庫匯入
2-4-2  Series的使用方法
2-4-3  DataFrame的使用方法
2-4-4  行列的操作
2-4-5  資料的抽出
2-4-6  資料的刪除與結合
2-4-7  統計
2-4-8  值的排序
2-4-9  nan (null)的判斷
        Practice  練習問題2-7
                  練習問題2-8
               練習問題2-9
2-5  Matplotlib的基礎
2-5-1  使用Matplotlib的準備工作
2-5-2  散佈圖
2-5-3  圖形的分割
2-5-4  函數圖形的描繪
2-5-5  直方圖
        Column  各種資料的視覺化
        Practice  練習問題2-10
               練習問題2-11
               練習問題2-12
        Practice  第2章 綜合問題

Chapter 3  敘述統計與簡單迴歸分析
3-1  統計解析的種類
3-1-1  記述統計與推論統計
3-1-2  匯入用於本章的函式庫
3-2  資料的讀取與對話
3-2-1  讀取網路等處公開的對象資料
3-2-2  資料的讀取與確認
3-2-3  確認資料的性質
        Column  關於「變數」這個術語
3-2-4  量的資料與質的資料
3-3  記述統計
3-3-1  直方圖
3-3-2  平均、中位數、眾數
3-3-3  變異數、標準差
3-3-4  敘述統計與百分位數
3-3-5  箱型圖
3-3-6  變異係數
3-3-7  散佈圖與相關係數
3-3-8  描繪所有變數的直方圖與散佈圖
        Practice  練習問題3-1
               練習問題3-2
               練習問題3-3
3-4  簡單迴歸分析
3-4-1  簡單線性迴歸分析
3-4-2  決定係數
        Practice  練習問題3-4
               練習問題3-5
               練習問題3-6
        Practice  第3章 綜合問題

Chapter 4  機率與統計基礎
4-1  學習機率與統計的準備工作
4-1-1  本章的背景知識
4-1-2  匯入用於本章的函式庫
4-2  機率
     4-2-1  數學機率
4-2-2  統計機率
4-2-3  條件機率與乘法定理
4-2-4  獨立與相關
4-2-5  貝氏定理
        Practice  練習問題4-1
               練習問題4-2
               練習問題4-3
4-3  機率變數與機率分布
4-3-1  機率變數、機率函數、分布函數、期望值
4-3-2  各種分布函數
4-3-3  核密度函數
        Practice  練習問題4-4
               練習問題4-5
               練習問題4-6
4-4  應用:多維機率分布
4-4-1  聯合機率函數與邊際機率函數
4-4-2  條件機率函數與條件期望值
4-4-3  獨立的定義與連續分布
4-5  推論統計學
4-5-1  大數法則
4-5-2  中央極限定理
4-5-3  樣本分布
        Practice  練習問題4-7
               練習問題4-8
               練習問題4-9
4-6  統計推論
4-6-1  估計量與點估計
4-6-2  無偏性與一致性
4-6-3  區間估計
4-6-4  計算估計量
        Practice  練習問題4-10
               練習問題4-11
               練習問題4-12
4-7  統計檢驗
4-7-1  檢驗
4-7-2  第一型錯誤與第二型錯誤
4-7-3  檢驗大數據的注意事項
        Practice  練習問題4-13
        Practice  第4章 綜合問題

Chapter 5  使用Python進行科學計算(Numpy與Scipy)
5-1  概要與事前準備
     5-1-1  本章的概要
5-1-2  匯入用於本章的函式庫
5-2  使用Numpy計算之應用
5-2-1  索引的參照
        Practice  練習問題5-1
               練習問題5-2
               練習問題5-3
5-2-2  Numpy的運算處理
        Practice  練習問題5-4
               練習問題5-5
               練習問題5-6
5-2-3  陣列操作與廣播
        Practice  練習問題5-7
               練習問題5-8
               練習問題5-9
5-3  使用Scipy計算之應用
5-3-1  內插
5-3-2  線性代數:矩陣分解
        Practice  練習問題5-10
               練習問題5-11
               練習問題5-12
               練習問題5-13
               練習問題5-14
5-3-3  積分與微分方程式
        Practice  練習問題5-15
               練習問題5-16
5-3-4  最佳化
        Practice  練習問題5-17
               練習問題5-18
        Practice  第5章 綜合問題

Chapter 6  使用Pandas進行資料加工處理
6-1  概要與事前準備
6-1-1  匯入用於本章的函式庫
6-2  Pandas的基本資料操作
6-2-1  階層型索引
        Practice  練習問題6-1
                   練習問題6-2
               練習問題6-3
6-2-2  資料的結合
        Practice  練習問題6-4
                練習問題6-5
                練習問題6-6
6-2-3  資料的操作與變換
        Practice  練習問題6-7
               練習問題6-8
               練習問題6-9
6-2-4  資料的聚合與群組運算
        Practice  練習問題6-10
               練習問題6-11
               練習問題6-12
6-3  遺漏資料與異常值處理的基礎
6-3-1  遺漏資料的處理方法
        Practice  練習問題6-13
               練習問題6-14
               練習問題6-15
6-3-2  異常資料的處理方法
6-4  時間序列資料處理的基礎
6-4-1  時間序列資料的處理與變換
        Practice  練習問題6-16
6-4-2  移動平均
        Practice  練習問題6-17
        Practice  第6章 綜合問題

Chapter 7  使用Matplotlib進行資料視覺化
7-1  資料的視覺化
7-1-1  關於資料的視覺化
7-1-2  匯入用於本章的函式庫
7-2  資料視覺化的基礎
7-2-1  長條圖
7-2-2  圓餅圖
        Practice  練習問題7-1
               練習問題7-2
               練習問題7-3
7-3  應用:金融資料的視覺化
7-3-1  將金融資料視覺化
7-3-2  顯示K線的函式庫
7-4  應用:思考分析結果的表現方式
7-4-1  關於資料製作的重點
    Practice  第7章 綜合問題
    Column  移動平均時間序列資料與對數時間序列資料

Chapter 8  機器學習的基礎(監督式學習)
8-1  機器學習的概觀
8-1-1  何謂機器學習?
8-1-2  監督式學習
8-1-3  非監督式學習
8-1-4  強化學習
8-1-5  匯入用於本章的函式庫
8-2  多元線性迴歸
8-2-1  讀取汽車售價資料
8-2-2  資料的整理
8-2-3  模型建構與評估
8-2-4  模型建構與模型評估流程的總結
        Practice  練習問題8-1
8-3  邏輯迴歸
8-3-1  邏輯迴歸的例子
8-3-2  資料的整理
8-3-3  模型建構與評估
8-3-4  藉由縮放提高來預測準確度
       Practice  練習問題8-2
  練習問題8-3
8-4  具正則化的迴歸:Lasso迴歸、Ridge迴歸
8-4-1  Lasso迴歸、Ridge迴歸的特徵
8-4-2  多元線性迴歸與Ridge迴歸的比較
       Practice  練習問題8-4
8-5  決策樹
8-5-1  蘑菇資料集
8-5-2  資料的整理
8-5-3  熵:雜質的指標
8-5-4  資訊獲利:測量分歧條件的有用性
8-5-5  決策樹的模型建構
       Practice  練習問題8-5
8-6  k-NN(K最近鄰演算法
8-6-1  k-NN的模型建構
       Practice  練習問題8-6
  練習問題8-7
8-7  支援向量機
8-7-1 支援向量機的模型建構
       Practice  練習問題8-8
       Practice  第8章 綜合問題

Chapter 9  機器學習的基礎(非監督式學習)
9-1  非監督式學習
9-1-1  非監督式模型的種類
9-1-2  匯入用於本章的函式庫
9-2  分群
9-2-1  k-means法
9-2-2  使用k-means法分群
9-2-3  將金融市場行銷資料分群
     9-2-4  使用手肘法判斷群數
9-2-5  分群結果的解釋
9-2-6  k-means法以外的手法
       Practice  練習問題9-1
9-3  主成分分析
     9-3-1  嘗試主成分分析
9-3-2  主成分分析的實例
       Practice  練習問題9-2
9-4  購物籃分析與關聯規則
9-4-1  何謂購物籃分析?
9-4-2  讀取用來進行購物籃分析的樣本資料
9-4-3  關聯規則
       Practice  第9章 綜合問題

Chapter 10  模型的驗證方法與效能調校方法
10-1  模型的評估與提高精確度的方法
10-1-1  機器學習的問題與手法
10-1-2  匯入用於本章的函式庫
10-2  模型的評估與效能調校
10-2-1  Holdout法與交叉驗證法
         Practice  練習問題10-1
10-2-2  效能調校:超參數的調校
         Practice  練習問題10-2
10-2-3  效能調校:特徵的處理
10-2-4  模型的種類
10-3  模型的評估指標
10-3-1  分類模型的評估:混淆矩陣與關聯指標
         Practice  練習問題10-3
10-3-2  分類模型的評估:ROC曲線與AUC
         Practice  練習問題10-4
10-3-3  迴歸模型的評估指標
10-4  集成學習
10-4-1  Bagging
         Practice  練習問題10-5
10-4-2  Boosting
         Practice  練習問題10-6
10-4-3  隨機森林、梯度Boosting
10-4-4  進一步了解
         Practice  練習問題10-7
         Practice  第10章 綜合問題

Chapter 11  綜合練習問題
11-1  綜合練習問題
11-1-1  綜合練習問題(1)
11-1-2  綜合練習問題(2)
11-1-3  綜合練習問題(3)
11-1-4  綜合練習問題(4)
11-1-5  綜合練習問題(5)
11-1-6  綜合練習問題(6)
11-1-7  參考:往後進行資料分析

Appendix
A-1  關於本書的環境建置
 A-1-1  關於Anaconda
 A-1-2  下載Anaconda的套件
 A-1-3  安裝Anaconda
 A-1-4  安裝pandas-datareader與Plotly
A-2  練習問題解答
 A-2-1  Chapter1 練習問題
 A-2-2  Chapter2 練習問題
 A-2-3  Chapter3 練習問題
 A-2-4  Chapter4 練習問題
 A-2-5  Chapter5 練習問題
 A-2-6  Chapter6 練習問題
 A-2-7  Chapter7 練習問題
 A-2-8  Chapter8 練習問題
 A-2-9  Chapter9 練習問題
 A-2-10  Chapter10 練習問題
 A-2-11  Chapter11 綜合練習問題
         Column  虛擬變數與多元共線性
A-3  參考文獻、參考URL
 A-3-1  參考文獻
 A-3-2  參考URL

結語