基於 NLP 的內容理解

李明琦//谷雪//孟子堯

  • 出版商: 機械工業
  • 出版日期: 2023-03-01
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • 頁數: 242
  • 裝訂: 平裝
  • ISBN: 7111720695
  • ISBN-13: 9787111720690
  • 相關分類: Text-mining
  • 立即出貨

買這商品的人也買了...

商品描述

這是一本講述如何用NLP技術進行文本內容理解的著作,
也是一本系統講解NLP算法的著作,是作者在NLP和內容理解領域多年經驗的總結。
本書結合內容理解的實際業務場景,系統全面、
循序漸進地講解了各種NLP算法以及如何用這些算法高效地解決內容理解方面的難題,主要包括如下幾個方面的內容:
(1)文本特徵表示
文本特徵表示是NLP的基石,也是內容理解的基礎環節,
本書詳細講解了離散型表示方法和分佈型表示方法等特徵表示方法及其應用場景,還講解了詞向量的評判標準。
(2)內容重複理解
詳細講解了標題重複、段落重複、文章重複的識別方法和去重算法。
(3)內容通順度識別及糾正
詳細講解了內容通順度的識別方法以及糾正不通順內容的方法。
(4)內容質量
詳細講解了多種內容質量相關的算法,以及如何搭建高質量的知識問答體系的流程。
(5)標籤體系構建
詳細講解了針對內容理解的標籤體系的建設流程和方法,以及多種相關算法。
(6)文本摘要生成
詳細講解了抽取式文本摘要和生成式文本摘要兩種流行的文本摘要生成方法,以及文本摘要的常用數據集和文本摘要評價方法。
(7)文本糾錯
詳細講解了文本糾錯的傳統方法、深度學習方法、工業界解決方案,以及常用的文本糾錯工具的安裝和使用。

目錄大綱

前言
第1章文本特徵表示1
1.1 語料與語料預處理1
1.1.1 語料和語料庫1
1.1.2 語料預處理2
1.2 文本特徵表示方法6
1.2.1 離散型特徵表示方法6
1.2.2 分佈型特徵表示方法13
1.3 詞向量的評判標準29
1.3.1 內部評估29
1.3.2 外在評估31
1.4 本章小結34
第2章內容重複理解35
2.1 標題重複35
2.1.1 標題符號規整化處理36
2.1.2 Jieba分詞39
2.1.3 LAC分詞43
2.1.4 基於分詞及字符串等
方式進行重複識別45
2.2 段落重複識別實例47
2.2.1 段落重複識別47
2.2.2 基於N-gram算法進行
內容去重48
2.2.3 平滑處理技術54
2.3 基於相似度計算的文章判重57
2.3.1 文本相似度計算任務
的分析57
2.3.2 距離度量方式58
2.3.3 基於SimHash算法進行
文本重複檢測62
2.4 本章小結66
第3章內容通順度識別及糾正67
3.1 數據增強67
3.2 基於FastText算法的句子
通順度識別73
3.2.1 CBOW模型74
3.2.2 FastText算法原理75
3.2.3 FastText算法實戰81
3.3 基於TextCNN算法的分類
任務實現93
3.3.1 專有名詞簡介93
3.3.2 算法介紹94
3.3.3 參數調優經驗總結96
3.3.4 基於Keras工具實現TextCNN算法96
3.4 基於TextRNN算法的分類
任務實現98
3.4.1 LSTM和BiLSTM 98
3.4.2 TextCNN和TextRNN
識別效果對比105
3.5 基於Seq2Seq模型的
糾正策略106
3.5.1 Seq2Seq模型原理106
3.5.2 糾正不通順句子的方法108
3.6 本章小結114
第4章內容質量116
4.1 GBDT算法116
4.1.1 GBDT算法概述117
4.1.2 負梯度擬合117
4.1.3 GBDT回歸算法118
4.1.4 GBDT分類算法119
4.2 XGBoost算法121
4.2.1 從GBDT到XGBoost 121
4.2.2 XGBoost損失函數122
4.2.3 XGBoost損失函數的
優化求解124
4.2.4 XGBoost算法流程125
4.2.5 XGBoost算法參數
及調優127
4.3 知識問答質量體系的搭建129
4.3.1 知識問答質量體系
建立的意義130
4.3.2 整體的項目實施方案130
4.3.3 知識問答質量體系
搭建流程133
4.4 本章小結142
第5章標籤體系構建143
5.1 標籤體系143
5.1.1 標籤體系的重要性143
5.1.2 標籤體系的分類144
5.1.3 構建標籤體系146
5.2 TF-IDF算法151
5.2.1 TF-IDF算法介紹151
5.2.2 TF-IDF算法實現152
5.3 PageRank算法155
5.4 TextRank算法163
5.4.1 TextRank算法的使用
場景164
5.4.2 TextRank算法的
優缺點168
5.5 本章小結168
第6章文本摘要生成169
6.1 文本摘要相關介紹169
6.1.1 文本摘要問題定義169
6.1.2 文本摘要分類170
6.1.3 文本摘要的技術和方法170
6.2 基於無監督的抽取式文本摘要172
6.2.1 基於經驗的文本摘要173
6.2.2 基於主題模型的
文本摘要175
6.2.3 基於圖的文本摘要182
6.2.4 基於特徵評分的
文本摘要185
6.2.5 基於聚類的文本摘要188
6.3 基於有監督的抽取式文本摘要191
6.4 基於深度神經網絡的生成式
文本摘要201
6.5 文本摘要常用數據集210
6.6 文本摘要評價方法211
6.6.1 自動評價方法211
6.6.2 人工評價方法213
6.7 本章小結213
第7章文本糾錯214
7.1 錯誤來源及類型214
7.2 文本糾錯的3種傳統方法215
7.2.1 模板匹配215
7.2.2 編輯距離匹配216
7.2.3 HANSpeller++框架217
7.3 文本糾錯深度學習方法220
7.3.1 英文文本糾錯方法220
7.3.2 中文文本糾錯方法224
7.4 工業界解決方法233
7.4.1 3階段級聯的糾錯方案234
7.4.2 符合多種場景的通用
糾錯方案236
7.4.3 保險文本的糾錯方案237
7.5 文本糾錯工具239
7.5.1 pycorrector 239
7.5.2 xmnlp 240
7.6 本章小結242