文本挖掘與信息檢索概論

蔡曉妍、楊黎斌、程塨、姚西文、姚超、韓軍偉

  • 出版商: 清華大學
  • 出版日期: 2022-10-01
  • 定價: $294
  • 售價: 8.5$250
  • 語言: 簡體中文
  • ISBN: 7302597448
  • ISBN-13: 9787302597445
  • 相關分類: 人工智慧軟體工程
  • 立即出貨 (庫存 < 3)

  • 文本挖掘與信息檢索概論-preview-1
  • 文本挖掘與信息檢索概論-preview-2
  • 文本挖掘與信息檢索概論-preview-3
文本挖掘與信息檢索概論-preview-1

買這商品的人也買了...

商品描述

文本挖掘與信息檢索是近年來人工智能領域的熱點研究方向。本書共8章,包括信息檢索概述、信息檢索模型、信息檢索的評價、文本分類技術、文本聚類技術、自動摘要技術、文本推薦技術和網頁鏈接分析,融合了統計學、機器學習、數據庫等知識,具有多學科交叉的特點。 內容全面,案例豐富,適合作為人工智能、數據科學、電腦、軟件工程等專業的本科生和研究生教材,也可作為企事業單位相關研究人員的參考資料。

目錄大綱

目錄

第1章信息檢索概述

1.1數據、信息和知識

1.1.1從數據到信息

1.1.2從信息到知識

1.2信息檢索的定義

1.3信息檢索的發展

1.3.1信息檢索的發展歷史

1.3.2信息檢索的主要方法

1.3.3信息檢索的應用

1.3.4信息檢索的發展趨勢

習題

第2章信息檢索模型

2.1概述

2.2向量空間檢索模型

2.2.1內積

2.2.2相似度計算 

2.3概率檢索模型

2.3.1概率論基礎知識 

2.3.2詞項權重 

2.3.3二值獨立模型

2.3.4非二值獨立模型

2.4基於語言建模的信息檢索模型

2.4.1龐特模型

2.4.2零概率問題以及解決方法

2.4.3語言模型檢索框架

2.4.4跨語言檢索模型

習題

第3章信息檢索的評價

3.1信息檢索的評價指標

3.1.1查全率

3.1.2査準率

3.1.3查準率與查全率的關系

3.1.4漏檢率和誤檢率

3.1.5響應時間

3.2信息檢索系統的評價

習題

第4章文本分類技術

4.1概述

4.1.1基本概念

4.1.2文本自動分類的兩種類型

4.1.3文本分類模式

4.1.4文本分類過程

4.2文本預處理

4.2.1分詞技術

4.2.2停用詞去除

4.2.3文本特徵選擇方法

4.2.4文本表示方法

4.3相似度度量方法

4.4常用分類算法分析

4.4.1Rocchio算法

4.4.2貝葉斯分類器

4.4.3貝葉斯信念網絡

4.4.4K近鄰算法

4.4.5支持向量機

4.5分類性能評價

4.5.1精確度和召回率

4.5.2F測量

4.5.3分類方法的綜合評價

4.6基於向量空間模型的文本分類方法

4.6.1文本分類系統的結構框架

4.6.2改進的文本特徵抽取算法

4.6.3二級分類模式

4.7基於語言模型的文本分類

4.7.1概述

4.7.2Bigram模型

4.7.3特徵提取

4.7.4分類器設計

4.7.5統計平滑

4.8基於捲積神經網絡的文本分類

4.8.1CNN概述

4.8.2CNN文本分類經典結構

4.8.3CNN文本分類方法

習題

第5章文本聚類技術

5.1概述

5.2常用的聚類方法

5.2.1基於劃分的聚類方法

5.2.2基於分層的聚類方法

5.2.3基於密度的聚類方法

5.2.4基於網格的聚類方法

5.2.5基於模型的聚類方法

5.3聚類算法的評價標準

5.4基於Kmeans的文本聚類算法

5.4.1概述

5.4.2Kmeans算法理論基礎

5.4.3Kmeans算法結果影響因素

5.4.4TFIDF理論基礎

5.4.5基於Kmeans文本聚類的主要步驟

5.4.6基於Kmeans算法的聚類實例

5.5基於潛在語義索引的文本聚類方法

5.5.1概述

5.5.2矩陣的奇異值分解

5.5.3LSI技術的理論基礎

5.5.4基於LSI文本聚類的主要步驟

5.5.5基於LSI文本聚類的實例

5.6基於Word2Vec的文本聚類方法

5.6.1詞向量概述

5.6.2Word2Vec語言模型

5.6.3連續詞袋模型

5.6.4Skipgram模型

5.6.5基於Word2Vec的文本聚類舉例

習題

第6章自動摘要技術

6.1概述

6.2抽取式摘要

6.2.1基於TextRank的文本自動摘要

6.2.2基於圖模型的文本自動摘要

6.2.3融合噪聲檢測的多文檔自動摘要

6.2.4抽取式多文檔自動摘要

6.3生成式摘要

6.3.1融合詞匯特徵的生成式摘要模型

6.3.2基於深度學習的文本自動摘要

6.3.3基於HITS註意力神經網絡的生成式摘要模型

6.4自動摘要的評價方法 

6.4.1內部評價法

6.4.2外部評價法

習題

第7章文本推薦技術

7.1基於內容的推薦方法

7.1.1概述

7.1.2存在的問題

7.2基於協同過濾的推薦方法

7.2.1基於用戶的協同過濾推薦方法

7.2.2基於物品的協同過濾推薦方法

7.2.3存在的問題

7.3混合推薦方法

7.4基於圖表示學習的推薦方法

7.4.1圖表示學習方法

7.4.2基於圖表示學習的推薦

7.4.3基於DeepWalk異構文獻網絡表示學習的個性化全局

引文推薦方法

7.5推薦系統的評價

7.5.1評價指標

7.5.2基於DeepWalk異構文獻網絡表示學習的個性化全局引文推薦方法

的實驗結果分析

習題

第8章網頁鏈接分析

8.1超鏈和頁面內容的關系

8.2特徵提取和特徵表示

8.3不同搜索階段的分析

8.4PageRank算法

8.4.1PageRank算法定義

8.4.2PageRank算法的優點和缺點

8.4.3基於LexRank的多文檔自動摘要方法

8.5HITS算法

8.5.1HITS算法定義

8.5.2尋找其他的特徵向量

8.5.3尋找同引分析和文獻耦合的關系

8.5.4HITS算法的優點和缺點

8.5.5基於HITS的多文檔自動摘要

8.6兩種算法的比較

8.7鏈接分析的應用

習題

參考文獻