自然語言處理原理與實戰

陳敬雷

  • 出版商: 清華大學
  • 出版日期: 2023-11-01
  • 售價: $594
  • 貴賓價: 9.5$564
  • 語言: 簡體中文
  • 頁數: 407
  • 裝訂: 平裝
  • ISBN: 7302632723
  • ISBN-13: 9787302632726
  • 相關分類: Text-mining
  • 立即出貨

  • 自然語言處理原理與實戰-preview-1
  • 自然語言處理原理與實戰-preview-2
  • 自然語言處理原理與實戰-preview-3
自然語言處理原理與實戰-preview-1

買這商品的人也買了...

商品描述

本書從自然語言處理基礎開始,逐步深入各種自然語言處理的熱點前沿技術,使用了Java和Python兩門語言精心編排了大量代碼實例,契合公司實際工作場景技能,側重實戰。 全書共19章,詳細講解中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註、文本相似度算法、語義相似度計算等內容,同時提供配套完整實戰項目,例如對話機器人實戰、搜索引擎項目實戰、推薦算法系統實戰。 本書理論聯系實踐,深入淺出,知識點全面。通過閱讀本書,讀者不僅可以理解自然語言處理知識,還能通過實戰項目案例更好地將理論融入實際工作中。 本書適合自然語言處理的初學者閱讀,有一定經驗的算法工程師也可從書中獲取很多有價值的知識,並通過實戰項目更好地理解自然語言處理的核心內容。

目錄大綱

 

目錄

 

 

 

第1章自然語言處理技術概述

 

1.1自然語言處理介紹

 

1.1.1自然語言處理的定義及其在實際工作中的定位

 

1.1.2自然語言處理的經典應用場景

 

1.2自然語言處理的技能要求和職業發展路徑

 

1.2.1大數據部門組織架構和自然語言處理職位所處位置

 

1.2.2自然語言處理的職位介紹和技能要求

 

1.2.3自然語言處理的職業生涯規劃和發展路徑

 

1.2.4自然語言處理的市場平均薪資水平

 

第2章中文分詞

 

2.1中文分詞原理

 

2.2規則分詞

 

2.2.1正向最大匹配法

 

2.2.2逆向最大匹配法

 

2.2.3雙向最大匹配法

 

2.3機器學習統計分詞

 

2.3.1隱馬爾可夫模型分詞

 

2.3.2感知器分詞

 

2.3.3CRF分詞

 

2.4分詞工具實戰

 

2.4.1CRF++工具包實戰

 

2.4.2Python的Jieba分詞

 

2.4.3Java的HanLP分詞

 

2.4.4Java的IK分詞

 

2.4.5Java的mmseg4j分詞

 

第3章詞性標註

 

3.1詞性標註原理

 

3.1.1詞性介紹

 

3.1.2HMM詞性標註

 

3.1.3感知器詞性標註

 

3.1.4CRF詞性標註

 

3.2詞性標註工具實戰

 

3.2.1Python的Jieba詞性標註

 

3.2.2Java的HanLP詞性標註

 

 

第4章命名實體識別

 

4.1命名實體識別原理

 

4.2基於HMM角色標註的命名實體識別

 

4.2.1中國人名識別

 

4.2.2地名識別

 

4.2.3機構公司名識別

 

4.3基於線性模型的命名實體識別

 

4.3.1感知器命名實體識別

 

4.3.2CRF命名實體識別

 

第5章依存句法分析

 

5.1依存句法分析原理

 

5.2HanLP基於神經網絡依存句法分析器

 

第6章語義角色標註

 

6.1語義角色標註原理

 

6.2語義角色標註的設計框架

 

6.2.1生成語義生成樹

 

6.2.2剪枝

 

6.2.3角色識別

 

6.2.4角色分類

 

第7章文本相似度算法

 

7.1字符串編輯距離

 

7.1.1算法原理

 

7.1.2Java代碼實現

 

7.1.3Python代碼實現

 

7.2餘弦相似度

 

7.2.1算法原理

 

7.2.2Java代碼實現

 

7.2.3Python代碼實現

 

第8章語義相似度計算

 

8.1《同義詞詞林》

 

8.1.1算法原理

 

8.1.2代碼實戰

 

8.2基於深度學習的語義相似度

 

8.2.1DSSM

 

8.2.2CNNDSSM

 

8.2.3LSTMDSSM

 

第9章詞頻逆文檔頻率

 

9.1TFIDF算法原理

 

9.2Java代碼實現TFIDF

 

9.3TFIDF的Python代碼實現

 

第10章條件隨機場

 

10.1算法原理

 

10.2開源工具實戰

 

第11章新詞發現與短語提取

 

11.1新詞發現

 

11.2短語提取

 

第12章搜索引擎Solr Cloud和Elasticsearch

 

12.1全文搜索引擎介紹及原理

 

12.2Lucene搜索引擎

 

12.3Solr Cloud

 

12.3.1Solr Cloud介紹及原理

 

12.3.2Solr Cloud實戰

 

12.4Elasticsearch

 

12.4.1Elasticsearch介紹及原理

 

12.4.2Elasticsearch實戰

 

第13章Word2Vec詞向量模型

 

13.1Word2Vec詞向量模型介紹及原理

 

13.2Word2Vec詞向量模型實戰

 

13.2.1Spark分佈式實現Word2Vec詞向量模型

 

13.2.2谷歌開源Word2Vec工具

 

第14章文本分類

 

14.1文本分類介紹及相關算法

 

14.2樸素貝葉斯算法

 

14.2.1算法原理

 

14.2.2源碼實戰

 

14.3支持向量機

 

14.3.1算法原理

 

14.3.2源碼實戰

 

14.4Python開源快速文本分類器FastText

 

14.4.1FastText框架核心原理

 

14.4.2FastText和Word2Vec的區別

 

14.4.3FastText實戰

 

14.5BERT文本分類

 

14.5.1BERT模型介紹及原理

 

14.5.2BERT中文文本分類實戰

 

第15章文本聚類

 

15.1文本聚類介紹及相關算法

 

15.2Kmeans文本聚類

 

15.2.1算法原理

 

15.2.2源碼實戰

 

15.3LDA主題詞——潛在狄利克雷分佈模型

 

15.3.1算法原理

 

15.3.2源碼實戰

 

第16章關鍵詞提取和文本摘要

 

16.1關鍵詞提取

 

16.1.1關鍵詞提取介紹及相關算法

 

16.1.2基於Python的關鍵詞提取實戰

 

16.1.3基於Java的關鍵詞提取實戰

 

16.2文本摘要

 

16.2.1文本摘要介紹及相關算法

 

16.2.2基於Python的文本摘要實戰

 

16.2.3基於Java的文本摘要實戰

 

第17章自然語言模型

 

17.1自然語言模型原理與介紹

 

17.2NGram統計語言模型

 

17.3LSTM神經網絡語言模型

 

第18章分佈式深度學習實戰

 

18.1TensorFlow深度學習框架

 

18.1.1TensorFlow原理和介紹

 

18.1.2TensorFlow安裝部署

 

18.2MXNet深度學習框架

 

18.2.1MXNet原理和介紹

 

18.2.2MXNet安裝部署

 

18.3神經網絡算法

 

18.3.1多層感知器算法

 

18.3.2捲積神經網絡

 

18.3.3循環神經網絡

 

18.3.4長短期記憶神經網絡

 

18.3.5端到端神經網絡

 

18.3.6生成對抗網絡

 

18.3.7深度強化學習

 

18.3.8TensorFlow分佈式訓練實戰

 

18.3.9分佈式TensorFlow on Kubernetes集群實戰

 

第19章自然語言處理項目實戰

 

19.1對話機器人項目實戰

 

19.1.1對話機器人原理與介紹

 

19.1.2基於TensorFlow的對話機器人

 

19.1.3基於MXNet的對話機器人

 

19.1.4基於深度強化學習的機器人

 

19.1.5基於搜索引擎的對話機器人

 

 

19.1.6對話機器人的Web服務工程化

 

19.2搜索引擎項目實戰

 

19.2.1搜索引擎系統架構設計

 

19.2.2搜索框架技術選型

 

19.2.3搜索相關度排序

 

19.2.4搜索綜合排序算法

 

19.2.5搜索內容意圖識別和智能糾錯

 

19.2.6搜索智能聯想詞

 

19.2.7搜索輸入框默認關鍵詞猜你喜歡

 

19.2.8相關搜索關鍵詞推薦

 

19.2.9排序學習與NDCG搜索評價指標

 

19.2.10個性化搜索猜你喜歡

 

19.2.11搜索此關鍵詞的用戶最終購買算法

 

19.2.12搜索大數據平臺及數據倉庫建設

 

19.3推薦算法系統實戰

 

19.3.1推薦系統架構設計

 

19.3.2推薦數據倉庫集市

 

19.3.3ETL數據處理

 

19.3.4協同過濾用戶行為挖掘

 

19.3.5ContentBase文本挖掘算法

 

19.3.6用戶畫像興趣標簽提取算法

 

19.3.7基於用戶心理學的模型推薦

 

19.3.8多策略融合算法

 

19.3.9準實時在線學習推薦引擎

 

19.3.10Redis緩存處理

 

19.3.11分佈式搜索

 

19.3.12推薦二次排序算法

 

19.3.13在線Web實時推薦引擎服務

 

19.3.14在線AB測試推薦效果評估

 

19.3.15離線AB測試推薦效果評估

 

19.3.16推薦位管理平臺

 

參考資料