數據科學導論 : Python 語言實現 数据科学导论:Python语言实现 (数据科学与工程技术丛书)

阿爾貝托·博斯凱蒂(Alberto Boschetti), 盧卡·馬薩羅(Luca Massaron)

買這商品的人也買了...

商品描述

<內容簡介>

本書首先介紹如何設置基本的數據科學工具箱,然後帶你進入數據改寫和預處理階段,這一部分主要是闡明所有與核心數據科學活動相關的數據分析過程,如數據加載、轉換、修復以及數據探索和處理等。隨後,通過主要的機器學習算法、圖形分析技術,以及所有易於表現結果的可視化工具,實現對數據科學的概述。

<章節目錄>

譯者序
前言
第1章新手上路1
1.1數據科學與Python簡介1
1.2 Python的安裝2
1.2.1 Python 2還是Python 33
1.2.2分步安裝3
1.2.3 Python核心工具包一瞥4
1.2.4工具包的安裝7
1.2.5工具包升級9
1.3科學計算發行版9
1.3.1 Anaconda10
1.3.2 Enthought Canopy10
1.3.3 PythonXY10
1.3.4 WinPython10
1.4 IPython簡介10
1.4.1 IPython Notebook12
1.4.2本書使用的數據集和代碼18
1.5小結25
第2章數據改寫26
2.1數據科學過程26
2.2使用pandas進行數據加載與預處理27
2.2.1數據快捷加載27
2.2.2處理問題數據30
2.2.3處理大數據集32
2.2.4訪問其他數據格式36
2.2.5數據預處理37
2.2.6數據選擇39
2.3使用分類數據和文本數據41
2.4使用NumPy進行數據處理49
2.4.1 NumPy中的N維數組49
2.4.2 NumPy ndarray對象基礎50
2.5創建NumPy數組50
2.5.1從列表到一維數組50
2.5.2控制內存大小51
2.5.3異構列表52
2.5.4從列表到多維數組53
2.5.5改變量組大小54
2.5.6利用NumPy函數生成數組56
2.5.7直接從文件中獲得數組57
2.5.8從pandas提取數據57
2.6 NumPy快速操作和計算58
2.6.1矩陣運算60
2.6.2 NumPy數組切片和索引61
2.6 .3 NumPy數組堆疊63
2.7小結65
第3章數據科學流程66
3.1 EDA簡介66
3.2特徵創建70
3.3維數約簡72
3.3.1協方差矩陣72
3.3.2主成分分析73
3.3.3一種用於大數據的PCA變型—Randomized PCA76
3.3.4潛在因素分析77
3.3.5線性判別分析77
3.3.6潛在語義分析78
3.3.7獨立成分分析78
3.3.8核主成分分析78
3.3.9受限玻耳茲曼機80
3.4異常檢測和處理81
3.4.1單變量異常檢測82
3.4.2 EllipticEnvelope83
3.4.3 OneClassSVM87
3.5評分函數90
3.5.1多標號分類90
3.5.2二值分類92
3.5.3回歸93
3.6測試和驗證93
3.7交叉驗證97
3.7.1使用交叉驗證迭代器99
3.7.2採樣和自舉方法100
3.8超參數優化102
3.8.1建立自定義評分函數104
3.8.2減少網格搜索時間106
3.9特徵選擇108
3.9.1單變量選擇108
3.9.2遞歸消除110
3.9.3穩定性選擇與基於L1的選擇111
3.10小結112
第4章機器學習113
4.1線性和邏輯回歸113
4.2樸素貝葉斯116
4.3 K近鄰118
4.4高級非線性算法119
4.4.1基於SVM的分類算法120
4.4.2基於SVM的回歸算法122
4.4.3調整SVM123
4.5組合策略124
4.5.1基於隨機樣本的粘合策略125
4.5 .2基於弱組合的分袋策略125
4.5.3隨機子空間和隨機分片126
4.5.4模型序列—AdaBoost127
4.5.5梯度樹提升128
4.5.6處理大數據129
4.6自然語言處理一瞥136
4.6. 1詞語分詞136
4.6.2詞幹提取137
4.6.3詞性標註137
4.6.4命名實體識別138
4.6.5停止詞139
4.6.6一個完整的數據科學示例—文本分類140
4.7無監督學習概述141
4.8小結146
第5章社會網絡分析147
5.1圖論簡介147
5.2圖的算法152
5.3圖的加載、輸出和採樣157
5.4小結160
第6章可視化161
6.1 matplotlib基礎介紹161
6.1.1曲線繪圖162
6.1.2繪製分塊圖163
6.1.3散點圖164
6.1.4直方圖165
6.1.5柱狀圖166
6.1.6圖像可視化167
6.2 pandas的幾個圖形示例169
6.2.1箱線圖與直方圖170
6.2. 2散點圖171
6.2.3平行坐標173
6.3高級數據學習表示174
6.3.1學習曲線174
6.3.2驗證曲線176
6.3.3特徵重要性177
6.3.4 GBT部分依賴關係圖179
6.4小結180