基於 H2O 的機器學習實用方法:一種強大的可擴展的人工智能和深度學習技術

達倫·庫克

買這商品的人也買了...

商品描述

《基於H2O的機器學習實用方法:一種強大的可擴展的人工智能和深度學習技術》主要介紹了H2O的基本概念和應用。全書共11章,首先介紹了H2O在R和Python下的安裝和啟動、數據導入/導出和操作以及本書所用的三種不同示例數據集和常用的模型參數。然後分別介紹了隨機森林、梯度推進機、線性模型、深度學習和無監督式學習等算法在三種不同數據集中的應用,分析對比了默認算法和改進算法的性能。另外,還討論了相關其他內容。

作者簡介

Darren Cook是一名具有20多年經驗的軟件開髮師、數據分析師和技術總監,從事從金融交易系統到自然語言處理、數據可視化工具以及為一些全球大品牌製作網站等各類相關工作。他精通各種計算機編程語言,包括R、C++、PHP、JavaScript和Python。他在QQ Trend公司工作,這是一家金融數據分析和數據產品公司。連曉峰,已發表學術論文40餘篇,其中被EI收錄20餘篇;主持項目子課題兩項,省部級項目三項,校級項目兩項,參與完成項目四項,省部級項目六項;出版教材兩部,專著兩部,譯著四十部;獲得國家發明專利兩項,實用新型專利一項;現為中國電子學會高級會員,系統仿真學會會員,北京高新技術企業認定委員會專家庫專家,《機器人技術與應用》雜誌社理事,國家工信部工業和信息化科技人才專家庫專家。

目錄大綱

原書前言
第1章安裝和快速啟動\\\\ 1 
1.1安裝準備\\\\ 1 
1.1.1安裝R \\\\ 1 
1.1.2安裝Python \\\\ 2 
1.1.3隱私保護\\\\ 2 
1.1.4安裝Java \\\\ 2 
1.2利用R(CRAN)安裝H2O \\\\ 3 
1.3利用Python(pip)安裝H2O \\\\ 4 
1.4第一個學習示例\\ \\ 5 
1.4.1利用Python進行訓練和預測\\\\ 8 
1.4.2利用R進行訓練和預測\\\\ 10 
1.4.3性能與預測\\\\ 12 
1.4.4運氣不佳\\ \\ 13 
1.5 Flow \\\\ 13 
1.5.1數據\\\\ 14 
1.5.2模型\\\\ 16 
1.5.3預測\\\\ 17 
1.5.4 Flow中的其他注意事項\\\\ 18 
1.6小結\\\\ 18 

第2章數據導入/數據導出\\\\19 
2.1存儲空間要求\\\\ 19 
2.2數據準備\\\\ 20 
2.3數據導入到H2O \\\\ 21 
2.3. 1加載csv文件\\\\ 21
2.3.2加載其他格式文件\\\\ 23 
2.3.3從R中直接加載\\\\ 23 
2.3.4從Python中直接加載\\\\ 25 
2.4數據操作\\\\ 26 
2.4.1懶操作、命名和刪除\\\\ 26 
2.4.2數據匯總\\\\ 27 
2.4.3列操作\\\\ 28 
2.4.4行聚合\\\\ 29 
2.4.5索引\\\\ 30 
2.4 .6 H2O中的數據拆分\\\\ 31 
2.4.7行和列\\\\ 35 
2.5數據從H2O中導出\\\\ 38 
2.5.1導出數據幀\\\\ 38 
2.5.2 POJO \\\\ 39 
2.5.3模型文件\\\\ 40 
2.5.4保存所有模型\\\\ 40 
2.6小結\\\\ 41 

第3章數據集\\\\ 42 
3.1數據集:建築節能\ \\\ 42 
3.1.1設置和加載\\\\ 43 
3.1.2數據列\\\\ 44 
3.1.3拆分數據\\\\ 45 
3.1.4觀察\\\\ 46 
3.1.5關於數據集\\\\ 50 
3.2數據集:手寫體\\\\ 50 
3.2.1設置和加載\\\\ 51
3.2.2觀察\\\\ 52 
3.2.3幫助建模\\\\ 54 
3.2.4關於數據集\\\\ 55 5.4建築節能:默認的隨機森林\\\\ 91 
3.3數據集:足球比分\\\\ 56 
3.3.1相關性\\\\ 59 
3.3.2缺失數據.更多列\\\\ 62 
3.3.3如何訓練和測試?\\\\ 63 
3.3.4設置和加載\\\\ 63 
3.3.5其他第三方\\\\ 64 
3.3.6缺失數據(再次)\\\\ 67 
3.3.7設置和加載(再次)\ \\\ 67 
3.3.8關於數據集\\\\ 70 
3.4小結\\\\ 70 

第4章常用模型參數\\\\ 71 
4.1支持測度\\\\ 71 
4.1.1回歸指數\\\\ 72 
4.1.2分類指數\\\\ 72 
4.1.3二項式分類\\\\ 73 
4.2要素\\\\ 75 
4.3努力\\\\ 76 
4.4評分和驗證\\\\ 76 
4.5提前終止\ \\\ 77 
4.6檢查點\\\\ 79 
4.7交叉驗證(又名k-folds)\\\\ 81 
4.8數據加權\\\\ 82
4.9抽樣、歸納\\\\ 84 
4.10回歸\\\\ 85 
4.11輸出控制\\\\ 87 
4.12小結\\\\ 87 

第5章隨機森林\\\\88 
5.1決策樹\\\\ 88 
5.2隨機森林\\\\ 89 
5.3參數\\\\ 89 5.5網格搜索\\\\ 93 
5.5.1笛卡爾\\\\ 94 
5.5.2隨機離散\\\\ 96 
5.5.3高層策略\\ \\ 98 
5.6建築節能:改進的隨機森林\\\\ 99 
5.7 MNIST:默認的隨機森林\\\\ 101 
5.8 MNIST:改進的隨機森林\\\\ 102 
5.8.1增強數據\\\\ 105 
5.9足球比賽:默認的隨機森林\\\\ 106 
5.10足球比賽:改進的隨機森林\\\\ 108 
5.11小結\\\\ 110 

第6章梯度推進機// 111 
6.1推進// 111 
6.2好處、壞處和…神秘之處// 112 
6.3參數// 113 
6.4建築節能:默認GBM // 114 
6.5建築節能:改進GBM // 115 
6.6 MNIST:默認GBM // 119
6.7 MNIST:改進GBM // 120 
6.8足球比賽:默認GBM // 122 
6.9足球比賽:改進GBM // 123 
6.10小結// 125 

第7章線性模型// 126 
7.1 GLM參數// 126 
7.2建築節能:默認GLM // 130 
7.3建築節能:改進GLM // 132 
7.4 MNIST:默認GLM // 136 
7.5 MNIST:改進GLM // 137 
7.6足球比賽:默認GLM // 139 
7.7足球比賽:改進GLM // 141 
7.8小結/ / 142 

第8章深度學習(神經網絡)// 143 
8.1什麼是神經網絡?// 143 
8.1.1數值與分類// 145 
8.1.2神經網絡層// 146 
8.1.3激活函數// 147 
8.2參數// 148 
8.2.1深度學習正則化// 148 
8.2.2深度學習評分// 149 
8.3建築節能:默認的深度學習// 152 
8.4建築節能:改進的深度學習// 153 
8.5 MNIST:默認的深度學習// 157 
8.6 MNIST:改進的深度學習// 159
8.7足球比賽:默認的深度學習// 163 
8.8足球比賽:改進的深度學習// 164 
8.9小結// 168 
8.10附錄:更多的深度學習參數// 169 

第9章無監督學習// 171 
9.1 k均值聚類// 172 
9.2深度學習自動編碼器// 174 
9.2.1層疊自動編碼器// 177 
9.3主成分分析// 178 
9.4 GLRM // 179 
9.5缺失數據// 180 
9.5.1 GLRM // 183 
9.5.2失去R // 183 
9.6小結// 187 

第10章其他內容// 188 
10.1重要且需要分析的內容// 188 
10.2安裝最新版本的H2O // 188 
10.2.1由源代碼構建// 189 
10.3命令行運行// 189 
10.4聚類// 189 
10.4.1 EC2 // 190 
10.4.2其他雲提供商// 191 
10.4.3 Hadoop // 191 
10.5 Spark/Sparkling Water // 191 
10.6樸素貝葉斯// 192 
10.7集成// 192
10.7.1層疊: h2o.ensemble // 193 
10.7.2分類集成// 195 
10.8小結// 195 

第11章後記:一切運行良好!// 196 
11.1建築節能結果// 196 
11.2 MNIST結果// 197 
11.3足球比賽結果// 199 
11.4究竟有多差?// 200 
11.4.1越多越好// 201 
11.4.2仍渴望更多// 202 
11.4.3困難排除// 202 
11.4.4自動編碼器// 203 
11.4.5卷積和收縮// 204 
11.4.6集成// 205 
11.4.7這就是可能最差的情況. // 206 
11.5小結// 206