數據科學實戰 (Doing Data Science) 数据科学实战

Name: 數據科學實戰 (Doing Data Science)
Price: 474 TWD
Availability: Discontinued
Author: 舒特 (Rachel Schutt), 奧尼爾 (Cathy O'Neil)
ISBN: 7115383499

舒特 (Rachel Schutt), 奧尼爾 (Cathy O'Neil)

出版商: 人民郵電
出版日期: 2015-03-01
售價: $474
語言: 簡體中文
頁數: 290
裝訂: 平裝
ISBN: 7115383499
ISBN-13: 9787115383495
相關分類: Data Science
此書翻譯自: Doing Data Science: Straight Talk from the Frontline (Paperback)

已過版

買這商品的人也買了...

~~$990~~ $891

C++ Primer, 4/e (中文版)
~~$1,200~~ $1,176

Learning From Data (Hardcover)
~~$940~~ $700

無瑕的程式碼－敏捷軟體開發技巧守則 + 番外篇－專業程式設計師的生存之道 (雙書合購)
~~$550~~ $550

物件導向設計模式－可再利用物件導向軟體之要素 (精裝典藏版) (Design Patterns: Elements of Reusable Object-Oriented Software)
~~$880~~ $695

電玩物理學, 2/e (Physics for Game Developers: Science, math, and code for realistic effects, 2/e)
~~$680~~ $537

資料科學的商業運用 (Data science for business)
$528

深入淺出數據分析 (Head First Data Analysis: A learner's guide to big numbers, statistics, and good decisions)
~~$580~~ $458

Data Science from Scratch｜用 Python 學資料科學 (中文版)(Data Science from Scratch: First Principles with Python)
~~$560~~ $476

不止是測試：Python 網路爬蟲王者 Selenium
$351

大數據架構詳解：從數據獲取到深度學習
~~$699~~ $594

Microsoft SQL Server 2016 管理實戰
$528

收穫，不止 SQL 優化 — 抓住 SQL 的本質
$510

數據天才：數據科學家修煉之道
~~$480~~ $408

白話大數據與機器學習
~~$450~~ $382

認識資料科學的第一本書 (Data Analytics Made Accessible)
~~$480~~ $374

勒索病毒程式設計 : 揭秘你所不知道的勒索病毒
$594

Python 數據處理 (Data Wrangling with Python)
$856

深度學習
~~$580~~ $458

Deep Learning｜用 Python 進行深度學習的基礎理論實作
~~$480~~ $379

初探機器學習｜使用 Python (Thoughtful Machine Learning with Python)
$714

利用 Python 進行數據分析 (Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, 2/e)
~~$880~~ $695

Python 資料分析, 2/e (Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, 2/e)
~~$800~~ $720

人工智慧－現代方法, 3/e (Artificial Intelligence: A Modern Approach, 3/e)(附部份內容光碟)(新裝)
~~$350~~ $315

人工智慧基礎
~~$580~~ $458

深度學習｜生命科學應用 (Deep Learning for the Life Sciences)

商品描述

本書脫胎於哥倫比亞大學“數據科學導論”課程的教學講義，它界定了數據科學的研究範疇，是一本註重人文精神，多角度、全方位、深入介紹數據科學的實用指南，堪稱大數據時代的實戰寶典。本書旨在讓讀者能夠舉一反三地解決重要問題，內容包括：數據科學及工作流程、統計模型與機器學習算法、信息提取與統計變量創建、數據可視化與社交網絡、預測模型與因果分析、數據預處理與工程方法。另外，本書還將帶領讀者展望數據科學未來的發展。

作者簡介

Rachel Schutt 美國新聞集團旗下數據科學部門高級副總裁、哥倫比亞大學統計系兼職教授、約翰遜實驗室高級研究科學家，同時也是哥倫比亞大學數據科學及工程研究所教育委員會的發起人之一。她曾在谷歌研究院工作數年，負責設計算法原型並通過建模理解用戶行為。

目錄大綱

作者介紹
關於封面圖
前言

第1章簡介：什麼是數據科學
1.1大數據和數據科學的喧囂
1.2沖出迷霧
1.3為什麼是現在
1.4數據科學的現狀和歷史
1.5數據科學的知識結構
1.6思維實驗：元定義
1.7什麼是數據科學家
1.7.1學術界對數據科學家的定義
1.7.2工業界對數據科學家的定義

第2章統計推斷、探索性數據分析和數據科學工作流程
2.1大數據時代的統計學思考
2.1.1統計推斷
2.1.2總體和樣本
2.1.3大數據的總體和樣本
2.1.4大數據意味著大膽的假設
2.1.5建模
2.2探索性數據分析
2.2.1探索性數據分析的哲學
2.2.2練習：探索性數據分析
2.3數據科學的工作流程
2.4思維實驗：如何模擬混沌
2.5案例學習：RealDirect
2.5.1RealDirect是如何賺錢的
2.5.2練一練：RealDirect公司的數據策略

第3章算法
3.1機器學習算法
3.2三大基本算法
3.2.1線性回歸模型
3.2.2k近鄰模型（k—NN）
3.2.3K均值算法
3.3練習：機器學習算法基礎
3.4總結
3.5思維實驗：關於統計學家的自動化

第4章垃圾郵件過濾器、樸素貝葉斯與數據清理
4.1思維實驗：從實例中學習
4.1.1線性回歸為何不適用
4.1.2k近鄰效果如何
4.2樸素貝葉斯模型
4.2.1貝葉斯法則
4.2.2個別單詞的過濾器
4.2.3直通樸素貝葉斯
4.3拉普拉斯平滑法
4.4對比樸素貝葉斯和k近鄰
4.5Bash代碼示例
4.6網頁抓取：API和其他工具
4.7Jake的練習題：文章分類問題中的樸素貝葉斯模型

第5章邏輯回歸
5.1思維實驗
5.2分類器
5.2.1運行時間
5.2.2你自己
5.2.3模型的可解釋性
5.2.4可擴展性
5.3邏輯回歸：一個來自M6D的真實案例研究
5.3.1點擊模型
5.3.2模型背後
5.3.3α和β的參數估計
5.3.4牛頓法
5.3.5隨機梯度下降法
5.3.6操練
5.3.7模型評價
5.4練習題

第6章時間戳數據與金融建模
6.1Kyle Teague與GetGlue公司
6.2時間戳
6.2.1探索性數據分析（EDA）
6.2.2指標和新變量
6.2.3下一步怎麼做
6.3輪到Cathy O’’Neill了
6.4思維實驗
6.5金融建模
6.5.1樣本期內外以及因果關系
6.5.2金融數據處理
6.5.3對數收益率
6.5.4實例：標準普爾指數
6.5.5如何衡量波動率
6.5.6指數平滑法
6.5.7金融模型的反饋
6.5.8聊聊回歸模型
6.5.9先驗信息量
6.5.10一個小例子
6.6練習：GetGlue提供的時間戳數據

第7章從數據到結論
7.1William Cukierski
7.1.1背景介紹：數據科學競賽
7.1.2背景介紹：眾包模式
7.2Kaggle模式
7.2.1Kaggle的參賽者
7.2.2Kaggle的客戶
7.3思維實驗：關於作業自動評分系統
7.4特徵選擇
7.4.1例子：留住用戶
7.4.2過濾型
7.4.3包裝型
7.4.4決策樹與嵌入型變量選擇
7.4.5熵
7.4.6決策樹算法
7.4.7如何在決策樹模型中處理連續性變量
7.4.8隨機森林
7.4.9用戶黏性：模型的預測能力與可解釋性
7.5David Huffaker：谷歌社會學研究的新方法
7.5.1從描述性統計到預測模型
7.5.2谷歌的社交研究
7.5.3隱私保護
7.5.4思維實驗：如何消除用戶的顧慮

第8章構建面向大量用戶的推薦引擎
8.1一個真實的推薦引擎
8.1.1最近鄰算法回顧
8.1.2最近鄰模型的已知問題
8.1.3超越近鄰模型：基於機器學習的分類模型
8.1.4高維度問題
8.1.5奇異值分解（SVD）
8.1.6關於SVD的重要特性
8.1.7主成分分析（PCA）
8.1.8交替最小二乘法
8.1.9固定矩陣V，更新矩陣U
8.1.10關於這些算法的一點思考
8.2思維實驗：如何過濾模型中的泡沫
8.3練習：搭建自己的推薦系統

第9章數據可視化與欺詐偵測
9.1數據可視化的歷史
9.1.1Gabriel Tarde
9.1.2Mark的思維實驗
9.2到底什麼是數據科學
9.2.1Processing
9.2.2Franco Moretti
9.3一個數據可視化的方案實例
9.4Mark的數據可視化項目
9.4.1《紐約時報》大廳裏的可視化：Moveable Type
9.4.2屏幕上的生命：Cascade可視化項目
9.4.3Cronkite廣場項目
9.4.4eBay與圖書網購
9.4.5公共劇場裏的「莎士比亞機」
9.4.6這些展覽的目的是什麼
9.5數據科學和風險
9.5.1關於Square公司
9.5.2支付風險
9.5.3模型效果的評估問題
9.5.4建模小貼士
9.6數據可視化在Square
9.7Ian的思維實驗
9.8關於數據可視化
……
第10章社交網絡與數據新聞學
第11章因果關系研究
第12章流行病學
第13章從競賽中學到的：數據泄漏和模型評價
第14章數據工程：MapReduce、Pregel、Hadoop
第15章聽聽學生們怎麼說
第16章下一代數據科學家、自大狂和職業道德