Tableau Prep即學即用 Tableau Prep: Up & Running: Self-Service Data Preparation for Better Analysis

Carl Allchin 盧浩,陳新,程傑仁 譯

商品描述

在自助式數據準備產品中,Tableau Prep相對來說比較容易使用,只要你知道如何清理和組織你的數據集。
來自倫敦信息實驗室(The Information Lab)的Carl Allchin,
通過一系列的實用課程能讓你快速掌握如何使用Tableau Prep,
包括數據準備、清理、自動化、組織和輸出數據集的方法。
這本實用技術指南基於Allchin的熱門博客Preppin' Data,它將帶你一步一步了解Tableau Prep的基本原理。
自助式數據準備可減少完成數據項目所需的時間,並提高你的數據分析質量。
《O'Reilly:Tableau Prep即學即用》將探究Tableau Prep是如何幫助我們訪問數據,並將其轉化為有價值的信息的過程。
了解準備數據時需要注意的事項。
了解處理數據字段時要使用哪些Tableau Prep函數。
分析數據集的形態和概貌。
對輸出數據進行分析,了解如何通過Tableau Prep實現工作流程自動化。
學習如何使用Tableau Prep函數來清理數據。
探索在實際場景中使用Tableau Prep相關技術的方法。
通過管理和記錄輸出,使他人可以使用你的數據。

作者簡介

Carl Allchin
是Tableau大使,也是倫敦信息實驗室(The Information Lab)的“另一位主教練”。
倫敦信息實驗室擁有全球領先的數據分析培訓課程。
Carl在金融服務領域擔任商業智能分析師和管理人員的時間超過十年,
他通過諮詢、博客教授市場領先的數據解決方案,為數百家公司提供支持服務。
Carl是Preppin'Data的創始人之一。

目錄大綱

前言 .1
第1 章 為何需要自助式數據準備 .9
1.1 自助式數據可視化簡史 9
1.2 獲取“正確的數據” . 10
1.3 自助式數據準備的機會 11
1.4 玩轉Tableau Prep 12
1.5 小結 13
第一部分 入門
第2 章 Tableau Prep Builder 入門 17
2.1 從哪裡獲得Tableau Prep Builder 17
2.2 如何獲取Prep Builder 的許可 18
2.3 Tableau Prep Builder 界面 19
2.4 數據準備的基本步驟 . 21
2.4.1 輸入步驟 22
2.4.2 清理步驟 23
2.4.3 輸出步驟 24
2.4.4 保存流程 24
2.5 小結 26
第3 章 數據準備規劃 .27
3.1 階段1:了解你的數據 . 28
3.2 階段2:明確目標狀態 . 29
3.3 階段3:確定數據從KYD 到預期狀態所需的轉換 31
3.4 階段4:構建工作流程 . 33
3.5 小結 35
第4 章 塑造數據 37
4.1 在輸入的數據集中尋找什麼 37
4.2 什麼數據形態最適合在Tableau 中進行分析 . 38
4.3 改變Prep Builder 中的數據集結構 . 40
4.3.1 Pivot(轉換) 40
4.3.2 Aggregate(匯總) . 41
4.3.3 Join(連接) . 42
4.3.4 Union(聯合) . 43
4.4 將數據重組技術應用於冰淇淋味的香皂案例 44
4.4.1 步驟1:將列數據轉換為行數據 . 44
4.4.2 步驟2:將行數據轉換為列數據 . 45
4.5 小結 46
第5 章 連接文件中的數據 47
5.1 基於文件之上的文件 . 47
5.1.1 電子表格 48
5.1.2 其他文件類型 48
5.2 在哪裡可以找到你的數據文件 . 49
5.3 如何在Prep 中連接到文件 . 50
5.4 使用文件輸入保存流程的注意事項 52
5.5 小結 52
第6 章 連接到數據庫 .53
6.1 什麼是數據庫 53
6.2 如何在Prep Builder 中連接到數據庫 55
6.3 何時應避免連接到數據庫 58
6.4 小結 58
第二部分 數據類型
第7 章 處理數字 61
7.1 我們的數字意味著什麼 62
7.2 數字的類型 . 62
7.3 用作類別還是度量 62
7.4 匯總 63
7.5 數字的格式化 63
7.6 控制數值數據的函數 . 64
7.7 小結 66
第8 章 處理日期問題 .67
8.1 為什麼日期很重要? . 67
8.2 日期的各個部分 67
8.3 日期查詢表 . 68
8.4 新紀元日期 . 69
8.5 Excel 序號 70
8.6 輸入日期 71
8.6.1 makedate() 函數 71
8.6.2 dateparse() 函數 71
8.7 小結 73
第9 章 處理字符串數據 74
9.1 字符串意味著什麼 74
9.2 字符串數據有何不同 . 75
9.2.1 字符順序 75
9.2.2 字符串格式化注意事項 76
9.3 常用於字符串數據準備的函數 . 78
9.4 使用字符串數據的分組和替換選項 79
9.5 小結 80
第10 章 處理布爾數據 81
10.1 什麼是布爾數據 . 81
10.1.1 為什麼它在數據分析中如此有用 . 81
10.1.2 具有布爾邏輯的函數 83
10.2 小結 . 90
第三部分 數據的形態
第11 章 數據概要分析 93
11.1 什麼是數據概況 . 93
11.2 為什麼可視化數據集很重要 94
11.2.1 安斯庫姆四要素 . 94
11.2.2 可視化與數據表 . 95
11.3 Prep Builder 如何配置文件數據 96
11.3.1 生成直方圖和迷你直方圖 . 97
11.3.2 選擇概要或詳細視圖 99
11.3.3 突出顯示數值 100
11.3.4 查看維度計數 101
11.4 排序 102
11.5 小結 102
第12 章 數據集採樣 103
12.1 一個簡單的規則:如果可能,全部使用 103
12.2 繞過技術限制的數據採樣 103
12.2.1 數據規模 . 104
12.2.2 數據速度 . 104
12.3 需要採樣的其他理由 105
12.3.1 縮短建設時間 105
12.3.2 確定你需要什麼 . 105
12.4 採樣技術 . 106
12.4.1 固定行數 . 106
12.4.2 隨機採樣 . 107
12.5 何時不要採樣 108
12.6 小結 109
第13 章 將列轉為行 110
13.1 何時在Tableau Prep Builder 中進行數據轉換 . 110
13.2 如何將列轉為行 112
13.3 小結 116
第14 章 將行轉為列 117
14.1 何時使用行到列的數據轉換 . 117
14.2 如何將行轉為列 118
14.3 小結 121
第15 章 Prep Builder 中的匯總功能 . 122
15.1 比較Prep Builder 和Desktop 中的計算方法 122
15.2 Prep Builder 中的哪些計算方式不同 123
15.3 添加匯總的步驟 127
15.4 剩下的數據在哪裡 . 131
15.5 詳細程度計算選項 . 133
15.6 小結 133
第16 章 將數據集連接到一起 134
16.1 如何在Prep Builder 中連接數據集 134
16.2 加入邏輯與術語 137
16.3 Prep Builder 中的連接類型 139
16.4 何時使用每種連接類型 144
16.5 小結 145
第17 章 聯合數據 . 146
17.1 什麼是union(聯合) . 146
17.2 如果數據結構不一樣怎麼辦 . 148
17.3 何時聯合數據 149
17.3.1 月度數據集 150
17.3.2 來自網絡資源的數據集 150
17.3.3 公司合併 . 152
17.4 多表和通配符聯合 . 152
17.5 小結 154
第18 章 計算 . 155
18.1 計算在數據準備中的作用是什麼 155
18.2 創建一個計算字段 . 156
18.3 計算的基礎知識 158
18.3.1 參考列表 . 158
18.3.2 語法 159
18.3.3 描述 160
18.3.4 示例 160
18.4 建立計算 . 160
18.4.1 當計算順利進行時 . 160
18.4.2 當計算出現問題時 . 161
18.4.3 編輯計算字段 163
18.4.4 建議 163
18.5 計算的類型 164
18.5.1 數值計算 . 164
18.5.2 字符串計算 165
18.5.3 日期計算 . 165
18.5.4 帶有布爾輸出的條件計算 165
18.5.5 邏輯運算 . 165
18.5.6 類型轉換 . 165
18.6 詳細程度和排名計算 166
18.7 小結 167
第四部分 輸出
第19 章 選擇輸出 . 171
19.1 輸出類型 . 171
19.1.1 發佈到文件 172
19.1.2 發佈到Tableau 服務器 173
19.2 何時在Prep Builder 中輸出數據 173
19.2.1 在輸出步驟中輸出數據 173
19.2.2 在Tableau Desktop 上預覽輸出數據 176
19.3 輸出數據時的其他考慮 178
19.4 小結 179
第20 章 輸出到數據庫 180
20.1 何時向數據庫寫入數據 180
20.1.1 清理數據 . 180
20.1.2 簡化的數據連接 . 181
20.1.3 階段表和參考表 . 181
20.2 寫入數據庫的設置 . 181
20.3 需要注意的問題 185
20.4 小結 186
第21 章 Tableau Prep Conductor 入門 187
21.1 何時使用Tableau Prep Conductor 187
21.2 如何獲得Prep Conductor 188
21.3 加載一個流程到Prep Conductor 188
21.4 使用Prep Conductor 的其他好處 195
21.5 小結 196
第五部分 清理數據
第22 章 創建附加數據 199
22.1 何時不要去創建數據 199
22.1.1 Tableau Desktop 中的動態計算 199
22.1.2 數據連接中的重複記錄 201
22.2 創建附加的列 201
22.2.1 使用計算 . 201
22.2.2 將行轉為列 202
22.2.3 連接數據集 203
22.3 創建附加行 204
22.3.1 將列轉為行 204
22.3.2 數據集聯合 204
22.3.3 數據集支撐 205
22.3.4 連接數據集 205
22.4 小結 205
第23 章 過濾 . 206
23.1 什麼是過濾器 207
23.2 不同類型的過濾器 . 207
23.2.1 選擇過濾 . 207
23.2.2 計算過濾 . 210
23.2.3 通配符過濾 211
23.2.4 空值過濾 . 213
23.3 何時過濾掉列 213
23.4 何時過濾掉行 213
23.5 小結 214
第24 章 在輸入過程中刪除數據 . 215
24.1 在加載數據集之前對其進行更改 215
24.2 性能慢、生成慢、輸出慢 216
24.3 刪除數據列 218
24.4 刪除記錄 . 221
24.5 小結 223
第25 章 拆分數據字段 224
25.1 基本分割 . 225
25.2 高級拆分:當自動拆分不能如期進行的時候 227
25.3 什麼時候不要拆分數據 229
25.3.1 地址數據 . 229
25.3.2 沒有明確的定界符 . 230
25.4 小結 230
第26 章 基於分組的數據清理 231
26.1 什麼是分組 231
26.2 為什麼使用分組 232
26.2.1 提高準確率 232
26.2.2 數據層次結構導向 . 232
26.2.3 平滑機構重組 233
26.3 分組技術 . 234
26.3.1 手動分組 . 234
26.3.2 計算 236
26.3.3 內置函數 . 238
26.4 小結 241
第27 章 空值處理 . 242
27.1 什麼是空值 242
27.2 什麼時候可以接受空值 243
27.3 如何刪除或替換空值 245
27.3.1 ISNULL() 函數 245
27.3.2 ZN() 函數 246
27.3.3 合併操作 . 247
27.4 小結 249
第28 章 使用數據角色 250
28.1 如何使用數據角色 . 251
28.2 自定義數據角色 253
28.3 小結 257
第29 章 處理多餘字符 258
29.1 什麼是多餘的字符 . 258
29.2 多餘字符引起的問題 259
29.3 去除多餘字符 261
29.3.1 含有錯別字的字符串 262
29.3.2 帶有多餘字符的數字 263
29.3 3 有錯別字的日期 . 264
29.4 小結 265
第30 章 去除重複數據 266
30.1 如何識別重複的數據 266
30.2 重複的原因 267
30.2.1 系統加載 . 267
30.2.2 每項度量的行 268
30.2.3 連接 269
30.3 如何處理重複數據 . 270
30.3.1 匯總:技巧1 270
30.3.2 匯總:技巧2 272
30.3.3 將行轉換成列 274
30.4 小結 275
第31 章 使用正則表達式 276
31.1 什麼是正則表達式 . 276
31.2 如何在Tableau Prep 中使用正則表達式 . 276
31.3 REGEXP_EXTRACT() 和REGEXP_EXTRACT_NTH() 277
31.3.1 REGEXP_MATCH() 函數 277
31.3.2 REGEXP_REPLACE() 函數 . 278
31.4 Regex(正則表達式)應用案例 . 278
31.4.1 替換常見錯誤 278
31.4.2 匿名評論或反饋 . 279
31.5 常用的正則表達式命令 280
31.6 小結 281
第32 章 實現高級連接 282
32.1 多連接條件 282
32.2 非等價連接條件 285
32.2.1 用連接來過濾數據 . 286
32.2.2 區間連接 . 287
32.3 OR 語句 289
32.4 小結 291
第33 章 創建LOD 計算 . 292
33.1 什麼是追加 292
33.2 通過LOD 計算來研究追加 292
33.2.1 何時使用LOD 計算 293
33.2.2 如何在Prep Builder 中編寫LOD 計算方法 . 294
33.2.3 LOD 計算在做什麼 298
33.3 小結 300
第34 章 分析計算 . 301
34.1 什麼是表計算 301
34.2 在Prep Builder 中應用表計算邏輯 304
34.2.1 關鍵詞 . 305
34.2.2 分析計算 . 305
34.3 應用案例 . 309
34.3.1 篩選前N 條記錄 . 309
34.3.2 過濾掉一定比例的數據 310
34.4 小結 312
第六部分 基礎知識拓展
第35 章 挑戰複雜的數據準備場景 . 315
35.1 挑戰 315
35.2 從哪裡開始 316
35.3 邏輯步驟 . 318
35.4 做出改變 . 321
35.5 做好迭代準備 322
35.6 小結 324
第36 章 處理自由文本 325
36.1 什麼是自由文本 325
36.2 為什麼自由文本有用 325
36.3 如何在Tableau 中分析自由文本 326
36.3.1 拆分字符串 327
36.3.2 將列轉為行 328
36.3.3 清理大小寫和標點符號 330
36.3.4 使用連接來刪除常見詞 330
36.3.5 將剩餘的值進行分組 332
36.4 小結 333
第37 章 使用更智能的過濾 335
37.1 計算 335
37.1.1 布爾計算 . 335
37.1.2 邏輯計算 . 336
37.1.3 正則計算 . 337
37.2 區間連接 . 339
37.3 百分比異常 339
37.3.1 手動輸入:LOD 計算 339
37.3.2 重新加載的數據:連接到以前的輸出 . 342
37.3.3 匯總各類型的平均生產成本 . 343
37.3.4 將數據集連接到一起 343
37.4 組合技術運用 344
37.5 小結 345
第38 章 處理兌換率 346
38.1 兌換率問題 346
38.2 在Tableau Prep 中應用兌換率 . 347
38.2.1 第1 步:為轉換創建一致的數據粒度 . 347
38.2.2 第2 步:將數據集連接在一起 348
38.2.3 第3 步:應用兌換率 349
38.3 兌換率的長期策略 . 349
38.3.1 頻率管理 . 349
38.3.2 維護歷史表 350
38.4 小結 350
第39 章 支撐你的數據 351
39.1 什麼是支撐 351
39.2 數據支撐所解決的問題 354
39.3 數據支撐帶來的挑戰 354
39.4 傳統的數據支撐技術 355
39.4.1 第1 步:輸入數據集 356
39.4.2 第2 步:建立連接計算 356
39.4.3 第3 步:將兩個數據集連接在一起 357
39.4.4 第4 步:過濾掉不需要的行 . 359
39.5 新數據支撐技術 360
39.5.1 第1 步:輸入數據集 361
39.5.2 第2 步:連接數據集 361
39.5.3 第3 步:添加報告日期 362
39.5.4 第4 步:移除支撐值 363
39.6 結果 363
39.7 小結 364