大資料技術前沿 大数据技术前沿

阮彤, 王昊奮, 陳為, 等

  • 出版商: 電子工業
  • 出版日期: 2016-03-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 頁數: 273
  • 裝訂: 平裝
  • ISBN: 7121282712
  • ISBN-13: 9787121282713
  • 相關分類: 大數據 Big-dataData ScienceText-mining
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

<內容介紹>

大數據的理論和應用都處於探索階段,阮彤、王昊奮、陳為、張華平、高凱等編著的《大數據技術前沿》選取了大數據研究與應用中的部分熱點問題,將科研機構的研究成果用淺顯的方式展現給讀者。本書分為9章,第1章大數據可視化,描述如何用合理的數據展現方法發現數據規律;第2?4章通過自然語言處理、社交網絡挖掘、語義網絡與知識圖譜等有關非結構化數據處理技術來闡述大數據的經典應用;第5?7重點介紹利用基於圖數據庫、內存計算、分佈式存儲系統的大數據存儲與管理等大數據平臺支撐;第8?9章探討基於眾包技術擴充數據來源與提高數據質量,並圍繞大數據環境下的隱私保護問題,討論了大數據安全技術。本書通過系統、多方位地總結大數據的技術前沿,使讀者可以快速瞭解大數據在學術方面的最新成果。

<章節目錄>
第1章 大數據可視化
  1.1 可視化基礎
    1.1.1 可視化釋義
    1.1.2 可視化流程
    1.1.3 可視化對象
    1.1.4 可視化方法
  1.2 大數據可視化介紹
    1.2.1 大數據可視化特點
    1.2.2 大尺度數據的可視化
    1.2.3 快速變化數據的可視化
    1.2.4 多變量數據的可視化
    1.2.5 非結構化數據的可視化
    1.2.6 大數據可視分析
  1.3 可視化與可視分析研發資源
    1.3.1 代表性開源與商業軟件
    1.3.2 開發工具與編程語言
    1.3.3 可視化信息資源
    1.3.4 部分可視化科研機構
  參考文獻
第2章 文本大數據處理
  2.1  文本大數據概述
  2.2 中文詞法分析
  2.3 句法分析
  2.4 語義分析
  2.5 開源項目與共享工具
  2.6 文本大數據的部分應用
    2.6.1 概述
    2.6.2 基於雙數組Trie樹的面向微博短文本的分詞
    2.6.3 詞義消歧
    2.6.4 未登錄詞識別
    2.6.5 文本分類與文本聚類
    2.6.6 機器翻譯
    2.6.7 其他應用
  參考文獻
第3章 社交網絡大數據挖掘
  3.1  概述
  3.2 大規模異構網絡集成
    3.2.1 計算模型——COSNET
    3.2.2 模型求解
    3.2.3 實驗結果
  3.3 基於交互的網絡機器學習
    3.3.1 網絡數據的主動交互學習
    3.3.2 演算法模型——MaxCo
    3.3.3 網絡流數據的主動交互學習
    3.3.4 演算法模型
  3.4 基於隨機路徑的高效網絡拓撲相似度演算法
    3.4.1 問題定義
    3.4.2 基於隨機路徑的網絡拓撲相似度演算法——Panther
    3.4.3 實驗結果
    3.4.4 小結

  3.5 個體行為與網絡分佈的統一建模框架——M3D
    3.5.1 研究方案
    3.5.2 實驗驗證
  3.6 總結和展望
  參考文獻
第4章 語義大數據——知識圖譜
  4.1 大規模知識圖譜技術
    4.1.1 知識圖譜的表示及其在搜索中的展現形式
    4.1.2 知識圖譜的構建
    4.1.3 知識圖譜在搜索中的應用
    4.1.4 總結
  4.2 行業知識圖譜工具
    4.2.1 簡介
    4.2.2 常見的行業知識圖譜
    4.2.3 行業知識圖譜的構建
    4.2.4 行業知識圖譜的應用
    4.2.5 應用案例
第5章 圖數據庫——基於圖的大數據管理
  5.1 圖數據庫簡介
    5.1.1 大圖數據
    5.1.2 OLTP與OLAP
    5.1.3 圖數據模型
    5.1.4 圖查詢語言
  5.2 主流圖數據庫和圖計算引擎
    5.2.1 最流行的圖數據庫——Neo4j
    5.2.2 分佈式圖數據庫——Titan
    5.2.3 基於RDF三元組庫的圖數據庫——Blazegraph
    5.2.4 基於Pregel框架的圖計算引擎——Giraph、Hama、GraphLab、GraphX
  5.3 圖數據庫關鍵技術
    5.3.1 圖數據庫的存儲
    5.3.2 圖數據庫的索引
    5.3.3 圖數據庫的查詢處理
  5.4 圖數據庫應用
    5.4.1 語義萬維網
    5.4.2 社會網絡
    5.4.3 生物信息學
第6章 內存計算——高速大數據處理的核心技術
  6.1 內存計算技術的一個誤區
  6.2 TimesTen的設計思路
  6.3 Apache Spark的設計思路
  6.4 SAP HANA的設計思路
  6.5 YunTable 4.0的產品介紹
    6.5.1 整體架構與核心技術
    6.5.2 MPP
    6.5.3 列存2.0
    6.5.4 動態數據分發
    6.5.5 內存計算
    6.5.6 性能和路線圖
  6.6 總結
第7章 分佈式存儲系統——大數據存儲支撐技術

  7.1 大數據對存儲系統帶來的挑戰及其引發的變革
  7.2 谷歌文件系統(GFS)
    7.2.1 支持大數據集存取和離線批處理的分佈式存儲系統
    7.2.2 GFS架構分析
    7.2.3 系統交互
    7.2.4 主節點的設計
    7.2.5 容錯和診斷
    7.2.6 小結
  7.3 支持海量數據和大規模併發訪問的分佈式對象存儲OpenStack Swif
    7.3.1 因特網化帶來新的存儲需求
    7.3.2 OpenStack Swift的特點
    7.3.3 Swift的數據模型和架構
    7.3.4 Swift的API
第8章 大數據安全技術
  8.1 差分隱私保護方法簡介
  8.2 差分隱私研究保護方向——數據發布和數據挖掘
    8.2.1 基於差分隱私保護的數據發布(DPDR)
    8.2.2 差分隱私保護數據挖掘(DPDM)
  8.3 常見隱私保護方法
    8.3.1 差分隱私保護分類方法
    8.3.2 差分隱私保護聚類方法
    8.3.3 差分隱私頻繁模式挖掘
  8.4 應用案例和原型系統
  參考文獻
第9章 眾包——數據來源與質量保證
  9.1 眾包
    9.1.1 眾包的概念和模型
    9.1.2 眾包的優劣分析
  9.2 眾包的關鍵技術
    9.2.1 眾包流程
    9.2.2 任務設計
    9.2.3 任務分配
    9.2.4 任務動態優化
    9.2.5 眾包激勵機制
    9.2.6 眾包質量保障
  9.3 眾包的成功案例和平臺
    9.3.1 知識百科眾包
    9.3.2 數據眾包
    9.3.3 創新眾包
    9.3.4 軟件眾包
    9.3.5 眾籌
    9.3.6 通用智力勞動眾包
    9.3.7 中國的眾包平臺
  9.4 眾包研究趨勢
  9.5 總結和展望
參考文獻

目錄大綱