駕馭文本(文本的發現組織和處理) 驾驭文本:文本的发现、组织和处理

格蘭特·英格索爾 (Grant S.Ingersoll), 托馬斯·莫頓 (Thomas S.Morton), 安德魯·法裡斯 (Andrew L.Farris)

  • 出版商: 電子工業
  • 出版日期: 2015-07-01
  • 定價: $474
  • 售價: 8.5$403
  • 語言: 簡體中文
  • 頁數: 318
  • 裝訂: 平裝
  • ISBN: 7121252309
  • ISBN-13: 9787121252303
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

 

<內容簡介>

文本處理是目前因特網內容應用(如搜索引擎、推薦引擎)的關鍵技術。由英格索爾、莫頓、法裡斯所著的《駕馭文本(文本的發現組織和處理)》涵蓋了文本處理概念和技術的多個方面,包括文本預處理、搜索、字符串匹配、信息抽取、命名實體識別、分類、聚類、標籤生成、摘要、問答等。本書的特點在於通過實例來理解文本處理的這些概念和技術,讀者利用現有的開源工具就可以自己實現這些實例。本書適合因特網文本內容處理領域的開發人員閱讀,也適合有志於加入這一領域的學生、從業人員閱讀。即使對於已經從事多年文本處理研究和開發工作的人員來說,本書也不失為一種有益的補充性讀物。

 

<章節目錄>

第1章  開始駕馭文本
  1.1 駕馭文本重要的原因
  1.2 預覽:一個基於事實的問答系統
    1.2.1 嗨,弗蘭肯斯坦醫生
  1.3 理解文本很困難
  1.4 駕馭的文本
  1.5 文本及智能應用:搜索及其他
    1.5.1 搜索和匹配
    1.5.2 抽取信息
    1.5.3 對信息分組
    1.5.4 一個智能應用
  1.6 小結
  1.7 相關資源
第2章  駕馭文本的基礎
  2.1 語言基礎知識
    2.1.1 詞語及其類別
    2.1.2 短語及子句
    2.1.3 詞法
  2.2 文本處理常見工具
    2.2.1 字符串處理工具
    2.2.2 詞條及切詞
    2.2.3 詞性標註
    2.2.4 詞幹還原
    2.2.5 句子檢測
    2.2.6 句法分析和文法
    2.2.7 序列建模
  2.3 從常見格式文件中抽取內容並做預處理
    2.3.1 預處理的重要性
    2.3.2 利用Apache Tika抽取內容
  2.4 小結
  2.5 相關資源
第3章  搜索
  3.1 搜索和多面示例:Amazon.com
  3.2 搜索概念入門
    3.2.1 索引內容
    3.2.2 用戶輸入
    3.2.3 利用向量空間模型對文檔排名
    3.2.4 結果展示
  3.3 Apache Solr搜索服務器介紹
    3.3.1 首次運行Solr
    3.3.2 理解Solr中的概念
  3.4 利用Apache Solr對內容構建索引
    3.4.1 使用XML構建索引
    3.4.2 利用Solr和Apache Tika對內容進行抽取和索引
……
第4章  模糊字符串匹配
第5章  命名實體識別
第6章  文本聚類
第7章  分類及標註
第8章  構建示例問答系統

第9章  未駕馭的文本:探索未來前沿

 

<作者介紹>

(美)英格索爾//莫頓//法裡斯|譯者:王斌