Alink 權威指南:基於 Flink 的機器學習實例入門 (Python)

楊旭

  • 出版商: 電子工業
  • 出版日期: 2022-03-01
  • 售價: $894
  • 貴賓價: 9.5$849
  • 語言: 簡體中文
  • 頁數: 476
  • ISBN: 7121431289
  • ISBN-13: 9787121431289
  • 相關分類: Machine Learning 機器學習
  • 立即出貨 (庫存 < 4)

商品描述

全書圍繞Alink(阿裡在Flink基礎上做的開源版本)的展開,以實例為主闡述Alink的使用。?以機器學習的知識架構將各個章節串聯起來,每個章節配合實例,用戶更容易理解和入手嘗試。?數據會採用讀者能免費下載的數據集,在加上Alink本身是開源的、免費的。用戶試用起來沒有成本。?實例實現的源代碼,準備放在Alink開源git上,大家容易看到,可以直接下載,代碼旁邊會有實體書的介紹?以機器學習的知識架構將各個章節串聯起來,每個章節配合實例,用戶更容易理解和入手嘗試。?數據會採用讀者能免費下載的數據集,在加上Alink本身是開源的、免費的。用戶試用起來沒有成本。?實例實現的源代碼,準備放在Alink開源git上,大家容易看到,可以直接下載,代碼旁邊會有實體書的介紹

目錄大綱

目錄

VII

目錄

1章Alink快速上手...................................................................................................... 1

1.1 Alink是什麼..............................................................................................................1

1.2 免費下載、安裝........................................................................................................2

1.3 Alink的功能..............................................................................................................2

1.3.1 豐富的算法庫................................................................................................2

1.3.2 多樣的使用體驗............................................................................................3

1.3.3 與SparkML的對比.......................................................................................4

1.4 關於數據和代碼........................................................................................................5

1.5 簡單示例....................................................................................................................6

1.5.1 數據的讀/寫與顯示.......................................................................................6

1.5.2 批式訓練和批式預測....................................................................................7

1.5.3 流式處理和流式預測..................................................................................10

1.5.4 定義Pipeline,簡化作............................................................................ 11

1.5.5 嵌入預測服務系統......................................................................................13

2章系統概況與核心概念.......................................................................................... 15

2.1 基本概念..................................................................................................................15

2.2 批式任務與流式任務..............................................................................................16

Alink 指南:基於Flink 的機器學習實例入門(Python)

VIII

2.3 Alink=A+link ...........................................................................................................19

2.3.1 BatchOperator和StreamOperator ...............................................................20

2.3.2 link方式是批式算法/流式算法的通用使用方式......................................21

2.3.3 link的簡化...................................................................................................24

2.3.4 組件的主輸出與側輸出..............................................................................25

2.4 Pipeline與PipelineModel .......................................................................................25

2.4.1 概念和定義..................................................................................................25

2.4.2 深入介紹......................................................................................................27

2.5 觸發Alink任務的執行...........................................................................................29

2.6 模型信息顯示..........................................................................................................31

2.7 文件系統與數據庫..................................................................................................35

2.8 Schema String ..........................................................................................................37

3章文件系統與數據文件.......................................................................................... 39

3.1 文件系統簡介..........................................................................................................39

3.1.1 本地文件系統..............................................................................................40

3.1.2 Hadoop文件系統.........................................................................................42

3.1.3 阿里雲OSS文件系統.................................................................................44

3.2 數據文件的讀入與導出..........................................................................................46

3.2.1 CSV格式.....................................................................................................47

3.2.2 TSV格式、LibSVM格式和Tet格式......................................................54

3.2.3 AK格式.......................................................................................................58

4章數據庫與數據表.................................................................................................. 61

4.1 簡介..........................................................................................................................61

4.1.1 Catalog的基本作.....................................................................................61

4.1.2 Source組件和Sink組件.............................................................................62

4.2 Hive示例.................................................................................................................63

4.3 Derby示例...............................................................................................................66

4.4 MySQL示例............................................................................................................68

目錄

IX

5章支持Flink SQL ................................................................................................... 70

5.1 基本作..................................................................................................................70

5.1.1 註冊..............................................................................................................70

5.1.2 運行..............................................................................................................71

5.1.3 內置函數......................................................................................................74

5.1.4 用戶定義函數..............................................................................................74

5.2 簡化作..................................................................................................................75

5.2.1 單表作......................................................................................................76

5.2.2 兩表的連接(JOIN)作..........................................................................80

5.2.3 兩表的集合作..........................................................................................82

6章用戶定義函數(UDF/UDTF) ............................................................................ 87

6.1 用戶定義標量函數(UDF) ..................................................................................87

6.1.1 示例數據及問題..........................................................................................88

6.1.2 UDF的定義.................................................................................................88

6.1.3 使用UDF處理批式數據............................................................................89

6.1.4 使用UDF處理流式數據............................................................................90

6.2 用戶定義表值函數(UDTF) ...............................................................................92

6.2.1 示例數據及問題..........................................................................................92

6.2.2 UDTF的定義...............................................................................................92

6.2.3 使用UDTF處理批式數據..........................................................................93

6.2.4 使用UDTF處理流式數據..........................................................................95

7章基本數據處理..................................................................................................... 98

7.1 採樣..........................................................................................................................98

7.1.1 取“前”N個數據.......................................................................................99

7.1.2 隨機採樣......................................................................................................99

7.1.3 加權採樣.................................................................................................... 102

7.1.4 分層採樣.................................................................................................... 103

7.2 數據劃分................................................................................................................ 104

Alink 指南:基於Flink 的機器學習實例入門(Python)

X

7.3 數值尺度變換........................................................................................................ 106

7.3.1 標準化........................................................................................................ 106

7.3.2 MinMaScale.............................................................................................. 108

7.3.3 MaAbsScale .............................................................................................. 109

7.4 向量的尺度變換.................................................................................................... 111

7.4.1 StandardScale、MinMaScale、MaAbsScale......................................... 111

7.4.2 正則化........................................................................................................ 113

7.5 缺失值填充............................................................................................................ 114

7.6 Python數組、DataFrame形式的數據和Alink批式數據之間的相互轉換...... 116

7.6.1 Python數組與DataFrame形式的數據之間的相互轉換........................ 116

7.6.2 將Alink批式數據轉換為DataFrame形式的數據.................................. 117

7.6.3 將DataFrame形式的數據轉換為Alink批式數據.................................. 118

8章線性二分類模型................................................................................................ 119

8.1 線性模型的基礎知識............................................................................................ 119

8.1.1 損失函數.................................................................................................... 119

8.1.2 經驗風險函數與結構風險函數................................................................ 121

8.1.3 線性模型與損失函數................................................................................ 122

8.1.4 邏輯回歸與線性支持向量機(Linear SVM) ........................................ 123

8.2 二分類評估方法.................................................................................................... 125

8.2.1 基本指標.................................................................................................... 126

8.2.2 綜合指標.................................................................................................... 128

8.2.3 評估曲線.................................................................................................... 131

8.3 數據探索................................................................................................................ 136

8.3.1 基本統計.................................................................................................... 138

8.3.2 相關性........................................................................................................ 140

8.4 訓練集和測試集.................................................................................................... 144

8.5 邏輯回歸模型........................................................................................................ 145

8.6 線性SVM模型..................................................................................................... 147

8.7 模型評估................................................................................................................ 149

8.8 特徵的多項式擴展................................................................................................ 154

目錄

XI

8.9 因子分解機............................................................................................................ 157

9章樸素貝葉斯模型與決策樹模型.......................................................................... 160

9.1 樸素貝葉斯模型.................................................................................................... 160

9.2 決策樹模型............................................................................................................ 162

9.2.1 決策樹的分裂指標定義............................................................................ 165

9.2.2 常用的決策樹算法.................................................................................... 167

9.2.3 指標計算示例............................................................................................ 170

9.2.4 分類樹與回歸樹........................................................................................ 173

9.2.5 經典的決策樹示例.................................................................................... 173

9.3 數據探索................................................................................................................ 176

9.4 使用樸素貝葉斯方法............................................................................................ 180

9.5 蘑菇分類的決策樹................................................................................................ 186

10章特徵的轉化..................................................................................................... 192

10.1 整體流程.............................................................................................................. 196

10.1.1 特徵啞元化.............................................................................................. 198

10.1.2 特徵的重要性.......................................................................................... 199

10.2 減少模型特徵的個數.......................................................................................... 201

10.3 離散特徵轉化...................................................................................................... 203

10.3.1 獨熱編碼.................................................................................................. 203

10.3.2 特徵哈希.................................................................................................. 205

11章構造新特徵..................................................................................................... 208

11.1 數據探索.............................................................................................................. 209

11.2 思路...................................................................................................................... 211

11.2.1 用戶和品牌的各種特徵.......................................................................... 212

11.2.2 二分類模型訓練...................................................................................... 214

11.3 計算訓練集.......................................................................................................... 214

11.3.1 原始數據劃分.......................................................................................... 214

Alink 指南:基於Flink 的機器學習實例入門(Python)

XII

11.3.2 計算特徵.................................................................................................. 216

11.3.3 計算標籤.................................................................................................. 223

11.4 正負樣本配比...................................................................................................... 225

11.5 決策樹.................................................................................................................. 228

11.6 集成學習.............................................................................................................. 229

11.6.1 Bootstrap aggregating ............................................................................... 229

11.6.2 Boosting .................................................................................................... 230

11.6.3 隨機森林與GBDT .................................................................................. 233

11.7 使用隨機森林算法.............................................................................................. 234

11.8 使用GBDT算法................................................................................................. 235

12章從二分類到多分類.......................................................................................... 237

12.1 多分類模型的評估方法...................................................................................... 237

12.1.1 綜合指標.................................................................................................. 239

12.1.2 關於每個標籤值的二分類指標.............................................................. 241

12.1.3 Micro、Macro、Weighted計算的指標.................................................. 241

12.2 數據探索.............................................................................................................. 244

12.3 使用樸素貝葉斯算法進行多分類...................................................................... 246

12.4 二分類器組合...................................................................................................... 248

12.5 Softma算法....................................................................................................... 252

12.6 多層感知器分類器.............................................................................................. 255

13章常用的多分類算法.......................................................................................... 258

13.1 數據準備.............................................................................................................. 258

13.1.1 讀取MNIST數據文件............................................................................ 259

13.1.2 稠密向量與稀疏向量.............................................................................. 260

13.1.3 標籤值的統計信息.................................................................................. 266

13.2 Softma算法....................................................................................................... 267

13.3 二分類器組合...................................................................................................... 269

13.4 多層感知器分類器(MLPC) ........................................................................... 270

13.5 決策樹與隨機森林.............................................................................................. 272

目錄

XIII

13.6 K近鄰算法...................................................................................................... 274

14章在線學習........................................................................................................ 277

14.1 整體流程.............................................................................................................. 277

14.2 數據準備.............................................................................................................. 279

14.3 特徵工程.............................................................................................................. 281

14.4 使用特徵工程處理數據...................................................................................... 282

14.5 在線訓練.............................................................................................................. 284

14.6 模型過濾.............................................................................................................. 287

15章回歸的由來..................................................................................................... 289

15.1 平均數.................................................................................................................. 290

15.2 向平均數方向的“回歸” .................................................................................. 291

15.3 線性回歸.............................................................................................................. 293

16章常用的回歸算法.............................................................................................. 296

16.1 回歸模型的評估指標.......................................................................................... 296

16.2 數據探索.............................................................................................................. 298

16.3 線性回歸.............................................................................................................. 301

16.4 決策樹與隨機森林.............................................................................................. 304

16.5 GBDT ................................................................................................................... 305

17章常用的聚類算法.............................................................................................. 307

17.1 聚類評估指標...................................................................................................... 308

17.1.1 基本評估指標.......................................................................................... 308

17.1.2 基於標籤值的評估指標.......................................................................... 310

17.2 K-Means聚類算法.............................................................................................. 312

17.2.1 算法簡介.................................................................................................. 312

17.2.2 K-Means實例.......................................................................................... 314

17.3 高斯混合模型算法.............................................................................................. 318

Alink 指南:基於Flink 的機器學習實例入門(Python)

XIV

17.3.1 算法介紹.................................................................................................. 318

17.3.2 GMM實例............................................................................................... 320

17.4 二分K-Means聚類算法..................................................................................... 321

17.5 基於經緯度的聚類.............................................................................................. 324

18章批式與流式聚類.............................................................................................. 327

18.1 稠密向量與稀疏向量.......................................................................................... 327

18.2 使用聚類模型預測流式數據.............................................................................. 329

18.3 流式聚類.............................................................................................................. 332

19章主成分分析..................................................................................................... 334

19.1 主成分的含義...................................................................................................... 336

19.2 兩種計算方式...................................................................................................... 340

19.3 在聚類方面的應用.............................................................................................. 342

19.4 在分類方面的應用.............................................................................................. 346

20章參數搜索..................................................................................................... 350

20.1 示例一:嘗試正則係數...................................................................................... 351

20.2 示例二:搜索GBDT參數............................................................................. 352

20.3 示例三:佳聚類個數...................................................................................... 353

21章文本分析........................................................................................................ 355

21.1 數據探索.............................................................................................................. 355

21.2 分詞...................................................................................................................... 357

21.2.1 中文分詞.................................................................................................. 357

21.2.2 Tokenizer和RegeTokenizer .................................................................. 361

21.3 詞頻統計.............................................................................................................. 365

21.4 單詞的區分度...................................................................................................... 367

21.5 抽取關鍵詞.......................................................................................................... 369

21.5.1 原理簡介.................................................................................................. 370

目錄

XV

21.5.2 示例.......................................................................................................... 371

21.6 文本相似度.......................................................................................................... 373

21.6.1 文本成對比較.......................................................................................... 374

21.6.2 相似的TopN ........................................................................................ 377

21.7 主題模型.............................................................................................................. 389

21.7.1 LDA模型................................................................................................. 390

21.7.2 新聞的主題模型...................................................................................... 392

21.7.3 主題與原始分類的對比.......................................................................... 394

21.8 組件使用小結...................................................................................................... 399

22章單詞向量化..................................................................................................... 400

22.1 單詞向量預訓練模型.......................................................................................... 401

22.1.1 加載模型.................................................................................................. 401

22.1.2 查找相似的單詞...................................................................................... 402

22.1.3 單詞向量.................................................................................................. 404

22.2 將單詞映為向量.............................................................................................. 409

23章情感分析........................................................................................................ 414

23.1 使用提供的特徵.................................................................................................. 415

23.1.1 使用樸素貝葉斯方法.............................................................................. 418

23.1.2 使用邏輯回歸算法.................................................................................. 422

23.2 如何提取特徵...................................................................................................... 425

23.3 構造更多特徵...................................................................................................... 429

23.4 模型保存與預測.................................................................................................. 432

23.4.1 批式/流式預測任務................................................................................. 432

23.4.2 嵌入式預測.............................................................................................. 433

24章構建推薦系統................................................................................................. 435

24.1 與推薦相關的組件介紹...................................................................................... 436

24.2 常用的推薦算法.................................................................................................. 439

Alink 指南:基於Flink 的機器學習實例入門(Python)

XVI

24.2.1 協同過濾.................................................................................................. 439

24.2.2 交替小二乘法...................................................................................... 440

24.3 數據探索.............................................................................................................. 441

24.4 評分預測.............................................................................................................. 446

24.5 根據用戶推薦影片.............................................................................................. 448

24.6 計算相似影片...................................................................................................... 453

24.7 根據影片推薦用戶.............................................................................................. 456

24.8 計算相似用戶...................................................................................................... 458