深入淺出:工業機器學習算法詳解與實戰

張朝陽

  • 出版商: 機械工業
  • 出版日期: 2020-01-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 繁體中文
  • 頁數: 273
  • 裝訂: 平裝
  • ISBN: 711164056X
  • ISBN-13: 9787111640561
  • 相關分類: Machine Learning 機器學習
  • 立即出貨 (庫存 < 6)

商品描述

實用性是本書的基本出發點,書中介紹了近年來在工業界被廣泛應用的機器學習算法,
這些算法經受了時間的考驗,不但效果好而且使用方便。
此外,本書也十分注重理論的深度和完整性,內容編排力求由淺入深、推理完整、
前後連貫、自成體系,先講統計學、矩陣、優化方法這些基礎知識,再介紹線性模型、
概率圖模型、文本向量化算法、樹模型和深度學習。
與大多數機器學習圖書不同,本書還介紹了算法周邊的一些工程架構及實現原理,
比如如何實時地收集訓練樣本和監控算法指標、參數服務器的架構設計、做A/B 測試的注意事項等。

本書理論體系完整,公式推導清晰,可作為機器學習初學者的自學用書。
讀者無需深厚的專業知識, 本科畢業的理工科學生都能看懂。
另外由於本書與工業實踐結合得很緊密,所以也非常適合於從事算法相關工作的工程技術人員閱讀。

作者簡介

張朝陽

畢業於華中科技大學工業工程系,獲碩士學位。
曾就職於58同城、字節跳動,現任脈脈高級算法研究員,從事過反作弊、
推薦、搜索等業務的算法研究和系統開發工作,擅長自然語言處理、點擊率預估和特徵工程。
多年堅持寫博客,總能以淺顯易懂的文字將算法原理講清楚,在博客園上吸引了眾多粉絲。

目錄大綱

前言
第1章概述
1.1機器學習基本流程/1
1.2業界常用算法/2
1.3構建機器學習系統/3

第2章統計學
2.1概率分佈/5
2.1.1期望與方差/5
2.1.2概率密度函數/ 7
2.1.3累積分佈函數/10
2.2極大似然估計與貝葉斯估計/11
2.2.1極大似然估計/11
2.2.2貝葉斯估計/13
2.2.3共軛先驗與平滑的關係/15
2.3置信區間/15
2.3.1 t分佈/16
2.3.2區間估計/17
2.3.3 Wilson置信區間/19
2.4相關性/20
2.4.1數值變量的相關性/20
2.4.2分類變量的相關性/22
2.4.3順序變量的相關性/27
2.4.4分佈之間的距離/28

第3章矩陣
3.1矩陣的物理意義/30
3.1.1矩陣是什麼/30
3.1.2矩陣的行列式/31
3.1.3矩陣的逆/32
3.1.4特徵值和特徵向量/32
3.2矩陣的數值穩定性/33
3.2.1矩陣數值穩定性的度量/33
3.2.2基於列主元的高斯{約當消元法/33
3.2.3嶺回歸/38
3.3矩陣分解/38
3.3. 1特徵值分解與奇異值分解/39
3.3.2高維稀疏矩陣的特徵值分解/40
3.3.3基於矩陣分解的推薦算法/45
3.4矩陣編程實踐/46
3.4.1 numpy數組運算/46
3.4. 2稀疏矩陣的壓縮方法/50
3.4.3用MapReduce實現矩陣乘法/52

第4章優化方法
4.1無約束優化方法/54
4.1.1梯度下降法/54
4.1.2擬牛頓法/56
4.2帶約束優化方法/58
4.3在線學習方法/61
4.3.1隨機梯度下降法/61
4.3.2 FTRL算法/63
4.4深度學習中的優化方法/70
4.4.1動量法/70
4.4.2 AdaGrad /71
4.4.3 RMSprop /71
4.4.4 Adadelta /71
4.4.5 Adam /72
4.5期望最大化算法/72
4.5.1 Jensen不等式/73
4.5.2期望最大化算法分析/73
4.5.3高斯混合模型/77

第5章線性模型
5.1廣義線性模型/79
5.1.1指數族分佈/ 79
5.1.2廣義線性模型的特例/80
5.2邏輯回歸模型/83
5.3分解機制模型/84
5.3.1特徵組合/84
5.3.2分解機制/86
5.3.3分解機制模型構造新特徵的思路/87
5.4基於域感知的分解機制模型/88
5.5算法實驗對比/95

第6章概率圖模型
6.1隱馬爾可夫模型/98
6.1.1模型介紹/98
6.1.2模型訓練/101
6.1.3模型預測/ 102
6.2條件隨機場模型/103
6.2.1條件隨機場模型及特徵函數/103
6.2.2向前變量和向後變量/107
6.2.3模型訓練/110
6.2.4模型預測/111
6.2.5條件隨機場模型與隱馬爾可夫模型的對比/112

第7章文本向量化
7.1詞向量/113
7.1.1 word2vec /113
7.1.2 fastText /117
7.1.3 GloVe /118
7.1.4算法實驗對比/120
7.2文檔向量/121
7.2.1 Paragraph Vector /121
7.2.2 LDA /123

第8章樹模型
8.1決策樹/130
8.1.1分類樹/131
8.1.2回歸樹/134
8.1.3剪枝/137
8.2隨機森林/139
8.3 AdaBoost /140
8.4 XGBoost /141
8.5 LightGBM /146
8.5.1基於梯度的單邊採樣算法/147
8.5.2互斥特徵捆綁/147
8.5.3 Leaf-Wise生長策略/148
8.5.4 DART /149
8.6算法實驗對比/150

第9章深度學習
9.1神經網絡概述/ 154
9.1.1網絡模型/154
9.1.2反向傳播/157
9.1.3損失函數/158
9.1.4過擬合問題/159
9.1.5梯度消失/161
9.1.6參數初始化/161
9.2卷積神經網絡/162
9.2.1卷積/162
9.2.2池化/165
9.2.3 CNN網絡結構/165
9.2.4 textCNN /167
9.3循環神經網絡/168
9.3.1 RNN通用架構/168
9.3.2 RNN的學習問題/170
9.3.3門控循環單元/172
9.3.4 LSTM /174
9.3.5 seq2seq /177
9.4注意力機制/179

第10章Keras編程
10.1快速上手/182
10.2 Keras層/184
10.2.1 Keras內置層/184
10.2.2自定義層/191
10.3調試技巧/194
10.3.1查看中間層的輸出/194
10.3.2回調函數/195
10.4 CNN和RNN的實現/198

第11章推薦系統實戰
11.1問題建模/203
11.2數據預處理/206
11.2.1歸一化/206
11.2.2特徵哈希/208
11.3模型探索/210
11.3.1基於共現的模型/210
11.3.2圖模型/211
11.3.3 DeepFM /214
11.3.4 DCN /219
11.4推薦服務/221
11.4.1遠程過程調用簡介/221
11.4.2 gRPC的使用/223
11.4.3服務發現與負載均衡/226

第12章收集訓練數據
12.1日誌的設計/229
12.2日誌的傳輸/231
12.3日誌的合併/238
12.4樣本的存儲/248

第13章分佈式訓練
13.1參數服務器/250
13.2基於PS的優化算法/256
13.3在線學習/259

第14章A/B測試
14.1實驗分組/261
14.2指標監控/266
14.2.1指標的計算/266
14.2.2指標的上報與存儲/267
14.2.3指標的展現與監控/269
14.3實驗結果分析/272