數據架構:大數據、數據倉庫以及Data Vault 数据架构:大数据、数据仓库以及Data Vault

威廉.H·英蒙 (W.H.Inmon), 丹尼爾·林斯泰特 (Daniel Linstedt)

  • 出版商: 人民郵電
  • 出版日期: 2017-01-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • 頁數: 277
  • 裝訂: 平裝
  • ISBN: 7115438439
  • ISBN-13: 9787115438430
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

<內容簡介>

本書是數據倉庫之父Inmon的新作,探討數據的架構和如何在現有系統中有效地利用數據。本書的主題涵蓋企業數據、大數據、數據倉庫、Data Vault、業務系統和架構。主要內容包括:在分析和大數據之間建立關聯,如何利用現有信息系統,如何導出重複型數據和非重複型數據,大數據以及使用大數據的商業價值,等等。

<章節目錄>


1.1企業數據1
1.1.1企業的全體數據1
1.1.2非結構化數據的劃分2
1.1.3業務相關性3
1.1.4大數據3
1.1.5分界線4
1.1. 6大陸分水嶺5
1.1.7企業數據全貌6
1.2數據基礎設施6
1.2.1重複型數據的兩種類型7
1.2.2重複型結構化數據7
1.2.3重複型大數據8
1.2.4兩種基礎設施9
1.2.5優化了什麼10
1.2.6對比兩種基礎設施11
1.3分界線12
1.3.1企業數據分類12
1.3.2分界線12
1.3.3重複型非結構化數據13
1.3.4非重複型非結構化數據15
1.3.5不同的領域17
1.4企業數據統計圖17
1.5企業數據分析22
1.6數據的生命週期——隨時間推移理解數據27
1.7數據簡史31
1.7.1紙帶和穿孔卡片31
1.7.2磁帶32
1.7.3磁盤存儲器32
1.7.4數據庫管理系統32
1.7.5耦合處理器33
1.7.6在線事務處理33
1.7.7數據倉庫34
1.7.8並行數據管理34
1.7.9 Data Vault 35
1.7.10大數據35
1.7.11分界線35
第2章大數據37
2.1大數據簡史37
2.1.1打個比方——佔領制高點37
2.1.2佔領制高點38
2.1.3 IBM360帶來的標準化38
2.1.4在線事務處理39
2.1.5 Teradata的出現和大規模並行處理39
2.1.6隨後到來的Hadoop和大數據39
2.1.7 IBM和Hadoop 39
2.1.8控制制高點40
2.2大數據是什麼40
2.2.1另一種定義40
2.2.2大數據量40
2.2.3廉價存儲器41
2.2.4羅馬人口統計方法41
2.2.5非結構化數據42
2.2.6大數據中的數據42
2.2.7重複型數據中的語境43
2.2.8非重複型數據44
2.2.9非重複型數據中的語境44
2.3並行處理45
2.4非結構化數據50
2.4.1隨處可見的文本信息50
2.4.2基於結構化數據的決策51
2.4.3業務價值定位51
2.4.4重複型和非重複型的非結構化信息52
2.4.5易於分析53
2.4.6語境化54
2.4.7一些語境化方法55
2.4.8 MapReduce 56
2.4.9手工分析56
2.5重複型非結構化數據的語境化57
2.5.1解析重複型非結構化數據57
2.5.2重組輸出數據58
2.6文本消歧58
2.6.1從敘事到分析數據庫58
2.6.2文本消歧的輸入59
2.6.3映射60
2.6.4輸入/輸出61
2.6.5文檔分片/指定值處理61
2.6.6文檔預處理62
2.6.7電子郵件——一個特例62
2.6.8電子表格63
2.6.9報表反編譯63
2.7分類法65
2.7.1數據模型和分類法65
2.7.2分類法的適用性66
2.7.3分類法是什麼66
2.7. 4多語言分類法68
2.7.5分類法與文本消歧的動態68
2.7.6分類法和文本消歧——不同的技術69
2.7.7分類法的不同類型70
2.7.8分類法——隨時間推移不斷維護70
第3章數據倉庫71
3.1數據倉庫簡史71
3.1.1早期的應用程序71
3.1.2在線應用程序71
3.1.3抽取程序72
3.1.4 4GL技術73
3.1.5個人電腦73
3.1.6電子表格74
3.1.7數據完整性75
3.1.8蛛網系統76
3.1.9維護積壓77
3.1.10數據倉庫78
3.1.11走向架構式環境78
3.1.12走向企業信息工廠78
3.1.13 DW 2.0 79
3.2集成的企業數據81
3.2.1數量眾多的應用程序81
3.2.2放眼企業82
3.2.3多個分析師83
3.2.4 ETL技術84
3.2.5集成的挑戰86
3.2.6數據倉庫的效益86
3.2.7粒度的視角87
3.3歷史數據89
3.4數據集市92
3.4.1顆粒化的數據92
3.4.2關係數據庫設計93
3.4.3數據集市93
3.4.4關鍵性能指標94
3.4. 5維度模型94
3.4.6數據倉庫和數據集市的整合95
3.5作業數據存儲96
3.5.1集成數據的在線事務處理96
3.5.2作業數據存儲97
3.5.3 ODS和數據倉庫98
3.5.4 ODS分類99
3.5.5將外部數據更新到ODS 99
3.5.6 ODS/數據倉庫接口100
3.6對數據倉庫的誤解101
3.6.1一種簡單的數據倉庫架構101
3.6.2在數據倉庫中進行在線高性能事務處理101
3.6.3數據完整性102
3.6.4數據倉庫工作負載102
3.6.5來自數據倉庫的統計處理103
3.6.6統計處理的頻率104
3.6.7探查倉庫104
第4章Data Vault 106
4.1 Data Vault簡介106
4.1.1 Data Vault 2.0建模107
4.1.2 Data Vault 2.0方法論定義107
4.1.3 Data Vault 2.0架構107
4.1.4 Data Vault 2.0實施108
4.1.5 Data Vault 2.0商業效益108
4.1.6 Data Vault 1.0 109
4.2 Data Vault建模介紹110
4.2.1 Data Vault模型概念110
4.2.2 Data Vault模型定義110
4.2.3 Data Vault模型組件111
4.2.4 Data Vault和數據倉庫112
4.2.5轉換到Data Vault建模112
4.2.6數據重構113
4.2.7 Data Vault建模的基本規則114
4.2.8為什麼需要多對多鏈接結構114
4.2.9散列鍵代替順序號115
4.3 Data Vault架構介紹116
4.3. 1 Data Vault 2.0架構116
4.3.2如何將NoSQL適用於本架構117
4.3.3 Data Vault 2.0架構的目標117
4.3.4 Data Vault 2.0建模的目標118
4.3.5軟硬業務規則118
4.3.6託管式SSBI與DV2架構119
4.4 Data Vault方法論介紹120
4.4.1 Data Vault 2.0方法論概述120
4.4.2 CMMI和Data Vault 2.0方法論120
4.4.3 CMMI與敏捷性的對比122
4.4.4項目管理實踐和SDLC與CMMI和敏捷的對比123
4.4.5六西格瑪和Data Vault 2.0方法論123
4.4.6全質量管理124
4.5 Data Vault實施介紹125
4.5.1實施概述125
4.5.2模式的重要性126
4.5.3再造工程和大數據127
4.5.4虛擬化我們的數據集市128
4.5.5託管式自助服務BI 128
第5章作業環境130
5.1作業環境——簡史130
5.1.1計算機的商業應用130
5.1.2最初的應用程序131
5.1.3 Ed Yourdon和結構化革命132
5.1.4系統開發生命週期132
5.1.5磁盤技術132
5.1.6進入數據庫管理系統時代133
5.1.7響應時間和可用性133
5.1.8現代企業計算136
5.2標準工作單元136
5.2.1響應時間要素136
5.2.2沙漏的比喻137
5.2.3車道的比喻138
5.2.4你的車跑得跟前面的車一樣快139
5.2.5標準工作單元139
5.2. 6服務等級協議139
5.3面向結構化環境的數據建模140
5.3.1路線圖的作用140
5.3.2只要粒度化的數據140
5.3.3實體關係圖141
5.3.4數據項集142
5.3.5物理數據庫設計143
5.3.6關聯數據模型的不同層次143
5.3.7數據聯動的示例144
5.3.8通用數據模型146
5.3.9作業數據模型和數據倉庫數據模型146
5.4元數據146
5.4.1典型元數據146
5.4.2存儲庫147
5.4.3使用元數據148
5.4.4元數據用於分析149
5.4.5查看多個系統150
5.4.6數據譜系150
5.4.7比較已有系統和待建系統150
5.5結構化數據的數據治理151
5.5.1企業活動151
5.5.2數據治理的動機152
5.5.3修復數據152
5.5.4粒度化的詳細數據153
5.5.5編制文檔153
5.5.6數據主管崗位154
第6章數據架構156
6.1數據架構簡史156
6.2大數據/已有系統的接口166
6.2.1大數據/已有系統的接口166
6.2.2重複型原始大數據/已有系統接口167
6.2.3基於異常的數據168
6.2.4非重複型原始大數據/已有系統接口169
6.2.5進入已有系統環境170
6.2.6 “語境豐富”的大數據環境171
6.2.7將結構化數據/非結構化數據放在一起分析172
6.3數據倉庫/作業環境接口172
6.3.1作業環境/數據倉庫接口172
6.3.2經典的ETL接口173
6.3.3作業數據存儲/ETL接口173
6.3.4集結區174
6.3.5變化數據的捕獲175
6.3.6內聯轉換175
6.3.7 ELT處理176
6.4數據架構——一種高層視角177
6.4.1一種高層視角177
6.4.2冗餘177
6.4.3記錄系統178
6.4.4不同的群體180
第7章重複型分析181
7.1重複型分析——必備基礎181
7.1.1不同種類的分析181
7.1.2尋找模式182
7.1.3啟發式處理183
7.1.4沙箱186
7.1.5標準概況187
7.1.6提煉、篩選188
7.1.7建立數據子集188
7.1.8篩選數據190
7.1.9重複型數據和語境192
7.1.10鏈接重複型記錄193
7.1. 11日誌磁帶記錄193
7.1.12分析數據點194
7.1.13按時間的推移研究數據195
7.2分析重複型數據196
7.2.1日誌數據198
7.2.2數據的主動/被動式索引199
7.2.3匯總/詳細數據200
7.2.4大數據中的元數據202
7.2.5相互關聯的數據203
7.3重複型分析204
7.3.1內部、外部數據204
7.3.2通用標識符205
7.3.3安全性205
7.3.4篩選、提煉207
7.3.5歸檔結果208
7.3.6指標210
第8章非重複型分析211
8.1非重複型數據211
8.1.1內聯語境化213
8.1.2分類法/本體處理214
8.1.3自定義變量215
8.1.4同形異義消解216
8.1.5縮略語消解217
8.1.6否定分析218
8.1.7數字標註219
8.1.8日期標註220
8.1.9日期標準化220
8.1.10列表的處理220
8.1 .11聯想式詞處理221
8.1.12停用詞處理222
8.1.13提取單詞詞根222
8.1.14文檔元數據223
8.1.15文檔分類223
8.1.16相近度分析224
8.1.17文本ETL中功能的先後順序225
8.1.18內部參照完整性225
8.1.19預處理、後處理226
8.2映射227
8.3分析非重複型數據229
8.3.1呼叫中心信息229
8.3.2醫療記錄237
第9章作業分析1 242
第10章作業分析2 249
第11章個人分析259
第12章複合式的數據架構264
詞彙表268