管理海量數據-壓縮索引和查詢(第2版經典再現全新修訂版) (Managing Gigabytes: Compressing and Indexing Documents and Images, 2/e) 管理海量数据:压缩、索引和查询
艾倫 H.威頓 (Ian H.Witten), 亞裡斯蒂爾·莫夫特 (Alistair Moffat), 貝爾 (Timothy C.Bell)
買這商品的人也買了...
-
$550$495 -
$301機器學習導論(原書第2版) (Introduction to Machine Learning, 2/e)
-
$301深入實踐 Boost-Boost 程序庫開發的 94 個秘笈 (Boost C++ Application Development Cookbook)
-
$250視覺大數據基礎與應用
-
$407反黑客工具大曝光--範例詳解安全工具的使用策略與方法(第4版)/安全技術經典譯叢
-
$352資料採擷技術與工程實踐
-
$250大數據演算法
-
$709Windows內核安全與驅動開發(含CD光盤1張)
-
$203擁抱大數據(新常態下的數據分析典型案例)
-
$301演算法基礎 (打開演算法之門)
-
$653ASP.NET開發實例大全(提高捲)(附光盤)
-
$653ASP.NET 開發實例大全 (基礎捲)(附光盤)
-
$403PaaS實現與運維管理(基於Mesos+Docker+ELK的實戰指南)
-
$296PostgreSQL 即學即用, 2/e (PostgreSQL: Up and Running: A Practical Introduction to the Advanced Open Source Database, 2/e)
-
$301推薦系統 (Recommender Systems: An Introduction)
-
$403Spark MLlib機器學習:算法、源碼及實戰詳解
-
$709推薦系統(技術評估及高效演算法)
-
$505Kubernetes權威指南:從Docker到Kubernetes實踐全接觸 (第2版)
-
$352OpenStack 最佳實踐 — 測試與 CI/CD
-
$254亞馬遜 AWS 雲基礎與實戰
-
$474$450 -
$653Angular 5 高級編程, 2/e
-
$659$626 -
$534$507 -
$654$621
相關主題
商品描述
<內容簡介>
《管理海量數據(壓縮索引和查詢第2版經典再現全新修訂版)》是斯坦福大學信息檢索和挖掘課程的首選教材之一,並已成為全球主要大學信息檢索的主要教材。本書理論和實踐並重,深入淺出地給出了海量信息數據處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在於不僅僅滿足信息檢索理論學習的需要,更重要的是給出了實踐中可能面對的各種問題及其解決方法。
本書作為斯坦福大學信息檢索課程的教材之一,具有一定的閱讀難度,主要面向信息檢索專業高年級本科生和研究生、搜索引擎業界的專業技術人員和從事海量數據處理相關專業的技術人員。
<目錄>
第1章 概覽 1
1.1 文檔數據庫(document databases) 7
1.2 壓縮(compression) 10
1.3 索引(indexes) 12
1.4 文檔索引 16
1.5 MG海量文檔管理系統 20
第2章 文本壓縮 23
2.1 模型 26
2.2 自適應模型 29
2.3 哈夫曼編碼 32
範式哈夫曼編碼 38
計算哈夫曼編碼長度 44
總結 52
2.4 算術編碼 52
算術編碼是如何工作的 53
實現算術編碼 57
保存累積計數 60
2.5 符號模型 61
部分匹配預測 62
塊排序壓縮 65
動態馬爾科夫壓縮 69
基於單字的壓縮 72
2.6 字典模型 73
自適應字典編碼器的LZ77系列 75
LZ77的Gzip變體 78
自適應字典編碼器的LZ78系列 80
LZ78的LZW變體 82
2.7 同步 84
創造同步點 85
自同步編碼 87
2.8 性能比較 90
壓縮性能 92
壓縮速度 95
其他性能方面的考慮 98
第3章 索引 99
3.1 樣本文檔集合 103
3.2 倒排文件索引 107
3.3 壓縮倒排文件 112
無參模型(Nonparameterized models) 114
全局貝努里模型 117
全局觀測頻率模型(Global observed frequency model) 120
局部貝努里模型(Local Bernoulli model) 121
有偏貝努里模型(Skewed Bernoulli model) 122
局部雙曲模型(Local hyperbolic model) 124
局部觀測頻率模型(Local observed frequency model) 125
上下文相關壓縮(Context-sensitive compression) 127
3.4 索引壓縮方法的效果 129
3.5 簽名文件和位圖 131
簽名文件 132
位片簽名文件(Bitsliced signature files) 136
簽名文件分析 141
位圖 144
簽名文件和位圖的壓縮 145
3.6 索引方法的比較 148
3.7 大小寫摺疊、詞根化和停用詞 150
大小寫摺疊 151
詞根化 151
影響索引長度的因素 152
停用詞(stop word) 153
第4章 查詢 157
4.1 訪問字典的方法 161
訪問數據結構 162
前端編碼(Front coding) 165
最小完美哈希函數 168
完美哈希函數的設計 171
基於磁盤的字典存儲 176
4.2 部分指定的查詢術語 177
字符串暴力匹配(Brute-force string matching) 177
用n-gram索引 178
循環字典(Rotated lexicon) 180
4.3 布爾查詢(BOOLEAN QUERY ) 182
合取查詢(conjunctive query) 182
術語處理順序 183
隨機訪問和快速查找 185
分塊倒排索引 187
非合取查詢(Nonconjunctive Query) 190
4.4 信息檢索和排名 191
坐標匹配(Coordinate matching) 191
內積相似度 192
向量空間模型 197
4.5 檢索效果評價 200
召回率和精確率 200
召回率——精確率曲線 203
TREC項目 204
萬維網搜索(World Wide Web Searching) 208
其他有效性評價方法 211
4.6 餘弦法實現 212
文檔內頻率 212
餘弦值的計算方法 216
文檔權重所需的內存 217
累加器內存 222
快速查詢處理 224
按頻率排序的索引 225
排序 228
4.7 交互式檢索 232
相關性反饋 232
概率模型 235
4.8 分佈式檢索 237
第5章 索引構造 243
計算模型 246
索引構造方法概覽 247
5.1 基於內存的倒排 248
5.2 基於排序的倒排 251
5.3 索引壓縮 255
壓縮臨時文件 256
多路歸併 259
原地多路歸併 260
5.4 壓縮的內存內倒排 266
大內存倒排 266
基於字典的切分(Lexicon-based partitioning) 271
基於文本的切分 273
5.5 倒排方法的比較 276
5.6 構造簽名文件和位圖 277
5.7 動態文檔集合 279
擴展文本(Expanding the text) 279
索引擴展(Expanding the index) 280
第6章 圖像壓縮 287
6.1 圖像類型 288
6.2 CCITT二值圖像的傳真標準 292
6.3 二值圖像的上下文壓縮 296
上下文模型 299
二值上下文模型 302
「超視力」壓縮(Clairvoyant compression) 304
6.4 JBIG:二值圖像標準 305
分辨率降低(Resolution reduction) 306
模板和自適應模板 311
編碼及概率估計 312
6.5 連續色調圖像的無損壓縮 313
GIF和PNG無損圖像格式 314
FELICS:快速、有效且無損圖像壓縮系統 316
CALIC:基於上下文自適應無損圖像解碼器 320
JPEG-LS:無損圖像壓縮新標準 321
6.6 JPEG:連續色調圖像標準 323
6.7 圖像的遞增傳輸 328
金字塔編碼 329
金字塔編碼的壓縮 330
中位數聚合 332
誤差模型 333
6.8 圖像壓縮技術總結 334
第7章 文本圖像 337
7.1 文本圖像壓縮概念 339
7.2 有損壓縮和無損壓縮 343
7.3 標記抽取 345
跟蹤標記的邊界 345
清除圖像中的標記 348
按自然閱讀順序排序標記 350
7.4 模板匹配 351
全局模板匹配 352
局部模板匹配 354
基於壓縮的模板匹配 355
庫模板篩法 358
評價模板匹配方法 359
7.5 從標記到符號 363
庫構造 363
符號及其偏移量 365
7.6 編碼文本圖像分量 366
庫 366
符號數 367
符號偏移 367
原始圖像 368
7.7 效果:有損和無損的模式 370
7.8 系統考慮 376
7.9 JBIG2:圖像文本壓縮標準 377
第8章 混合圖文 381
8.1 方向 383
用Hough變換檢測直線 384
左側留白查找 386
投影輪廓 387
從斜率直方圖到文本譜 392
8.2 切分 396
自下向上的切分方法 396
自上向下的組合的切分方法 398
基於標記的切分 399
使用短文本字符串切分 401
利用文本句法切分 404
8.3 分類 405
第9章 系統實現 409
9.1 文本壓縮 410
選擇壓縮模型 411
選擇編碼器 414
哈夫曼編碼的限制 416
長度限制的編碼 422
9.2 文本壓縮效果 427
壓縮有效性 427
解壓速度 431
解壓內存 431
動態文檔集合 434
9.3 圖像和文本圖像 436
壓縮二值圖像 438
壓縮灰度圖像 439
壓縮文本圖像 439
9.4 構造索引 441
9.5 索引壓縮 443
9.6 查詢處理 445
布爾查詢 445
排名查詢 448
附錄A mg系統指南 451
A.1 安裝MG系統 451
A.2 一個簡單的存儲和檢索例子 453
A.3 數據庫創建 458
A.4 對一個索引文檔集合進行查詢 462
A.5 非文本文件 464
A.6 圖像壓縮程序 466
附錄B 新西蘭圖書館 467
B.1 什麼是NZDL 467
電腦科學報告(Computer Science Technical Reports) 467
其他文檔集合 470
文檔集合的發展 476
音頻集合(audio collections) 476
音調索引(Melody Index) 477
B.2 NZDL是如何工作的 479
原始文檔 479
搜索和索引 480
B.3 影響 482
參考文獻 483