大數據智能—因特網時代的機器學習和自然語言處理技術 大数据智能:互联网时代的机器学习和自然语言处理技术

劉知遠

買這商品的人也買了...

相關主題

商品描述

 

<內容簡介>

本書是一本介紹大數據智能分析的科普書籍, 旨在讓更多的人瞭解和學習因特網時代的機器學習和自然語言處理技術,以期讓大數據技術更好地為我們的生產和生活服務。全書包括大數據智能基礎和大數據智能應用兩個部分,共8 章。大數據智能基礎部分有三章:第1 章以深度學習為例介紹大數據智能的計算框架;第2 章以知識圖譜為例介紹大數據智能的知識庫;第3 章介紹大數據背後的計算處理系統。大數據智能應用部分有5 章: 第4 章介紹智能問答, 第5 章介紹主題模型, 第6 章介紹個性化推薦系統,第7 章介紹情感分析與意見挖掘,第8 章介紹面向社會媒體大數據的語言使用分析及應用。最後在本書的後記部分為讀者追蹤大數據智能的最新學術材料提供了建議。

 

<章節目錄>

第1章深度學習——機器大腦的結構1
1.1概述3
1.1.1可以做酸奶的麵包機——通用機器的概念3
1.1.2連接主義5
1.1.3用機器設計機器6
1.1.4深度網絡6
1.1.5深度學習的用武之地7
1.2從人腦神經元到人工神經元8
1.2.1生物神經元中的計算靈感8
1.2.2激活函數9
1.3參數學習10
1.3.1模型的評價11
1.3.2有監督學習11
1.3.3梯度下降法12
1.4多層前饋網絡13
1.4.1多層前饋網絡14
1.4.2後向傳播算法計算梯度16
1.5逐層預訓練17
1.6深度學習是終極神器嗎19
1.6.1深度學習帶來了什麼19
1.6.2深度學習尚未做到什麼20
1.7內容回顧與推薦閱讀21
1.8參考文獻21
第2章知識圖譜——機器大腦中的知識庫23
2.1什麼是知識圖譜25
2.2知識圖譜的構建27
2.2.1大規模知識庫27
2.2.2因特網鏈接數據28
2.2.3因特網網頁文本數據29
2.2.4多數據源的知識融合29
2.3知識圖譜的典型應用30
2.3.1查詢理解(Query Understanding)30
2.3.2自動問答(Question Answering)32
2.3.3文檔表示(Document Representation)33
2.4知識圖譜的主要技術34
2.4.1實體鏈指(Entity Linking)34
2.4 .2關係抽取(Relation Extraction)35
2.4.3知識推理(Knowledge Reasoning)37
2.4.4知識表示(Knowledge Representation)38
2.5前景與挑戰39
2.6內容回顧與推薦閱讀40
2.7參考文獻41
第3章大數據系統——大數據背後的支撐技術43
3.1概述45
3.2高性能計算技術46
3.2.1超級計算機的組成47
3.2.2並行計算的系統支持48
3.3虛擬化和雲計算技術52
3.3.1虛擬化技術52
3.3.2雲計算服務54
3.4基於分佈式計算的大數據系統55
3.4.1Hadoop生態系統55
3.4.2Spark61
3.4.3典型的大數據基礎架構63
3.5大規模圖計算63
3.5.1分佈式圖計算框架64
3.5.2高效的單機圖計算框架65
3.6NoSQL66
3.6.1MongoDB簡介67
3.7內容回顧與推薦閱讀69
3.8參考文獻70
第4章智能問答——智能助手是如何煉成的71
4.1概述73
4.2問答系統的主要組成77
4.3文本問答系統78
4.3.1問題理解78
4.3.2知識檢索81
4.3.3答案生成83
4.4社區問答系統84
4.4.1社區問答系統的結構85
4.4.2相似問題檢索86
4.4 .3答案過濾86
4.5多媒體問答系統87
4.6大型問答系統案例:IBM沃森問答系統89
4.6.1沃森的總體結構89
4.6.2問題解析90
4.6.3知識儲備90
4.6.4檢索和候選答案生成91
4.6.5可信答案確定92
4.7內容回顧與推薦閱讀93
4.8參考文獻94
第5章主題模型——機器的智能摘要利器97
5.1概述99
5.2主題模型出現的背景100
5.3第一個主題模型潛在語義分析102
5.4第一個正式的概率主題模型104
5.5第一個正式的貝葉斯主題模型105
5.6LDA的概要介紹106
5.6.1LDA的延伸理解——主題模型廣義理解109
5.6.2模型求解111
5.6.3模型評估112
5.6.4模型選擇:主題數目的確定113
5.7主題模型的變形與應用114
5.7.1基於LDA的模型變種114
5.7.2基於LDA的典型應用115
5.7.3一個基於主題模型的新浪名人話題排行榜應用118
5.8內容回顧與推薦閱讀122
5.9參考文獻123
第6章個性化推薦系統——如何瞭解電腦背後的TA129
6.1概述131
6.1.1推薦系統的發展歷史132
6.1.2推薦無處不在133
6.1.3從千人一面到千人千面133
6.2個性化推薦的基本問題134
6.2.1推薦系統的輸入135
6.2.2推薦系統的輸出137
6.2.3個性化推薦的形式化137
6.2.4推薦系統的三大核心問題138
6.3典型推薦算法淺析139
6.3.1推薦算法的分類139
6.3.2典型推薦算法介紹140
6.3.3基於矩陣分解的打分預測146
6.3.4推薦的可解釋性151
6.3.5推薦算法的評價153
6.3.6我們走了多遠156
6.4參考文獻160
第7章情感分析與意見挖掘——計算機如何瞭解人類情感165
7.1概述167
7.2情感分析的主要研究問題172
7.3情感分析的主要方法175
7.3.1構成情感和觀點的基本元素175
7.3.2情感極性與情感詞典177
7.3.3屬性—觀點對182
7.3.4情感分析184
7.4主要的情感詞典資源188
7.5內容回顧與推薦閱讀189
7.6參考文獻190
第8章面向社會媒體大數據的語言使用分析及應用195
8.1概述197
8.2面向社會媒體的自然語言使用分析197
8.2.1詞彙的時空傳播與演化198
8.2.2語言使用與個體差異200
8.2.3語言使用與社會地位202
8.2.4語言使用與群體分析203
8.3面向社會媒體的自然語言分析應用206
8.3.1社會預測206
8.3.2霸凌現象定量分析207
8.4未來研究的挑戰與展望208
8.5參考文獻209
後記214
國際學術組織、學術會議與學術論文214
國內學術組織、學術會議與學術論文216
如何快速瞭解某個領域的研究進展217

 

<作者介紹>

劉知遠,目前以項目負責人身份主持NSFC青年基金、博士後科學基金等多項研究項目,科研經費累計超過50萬元。同時以項目骨幹身份參與實驗室多項973、863、NSFC重點和麵上項目。承擔和參與項目列表如下:擔任項目負責人的項目1.2014年-2016年,國家社會科學基金重大項目“基於大規模社交媒體的漢語模因傳播機理量化研究”子課題。2.2013年-2015年,NSFC青年基金項目“基於協同語義計算的社交媒體信息擴散與可信性研究”。3.2013年-2014年,清華大學-微軟聯合實驗室研究項目“Efficient Chinese Entity Linking for Large-scale Web Corpus to Heterogeneous Entity Networks”。擔任項目骨幹的項目1.2014年-2018年,973項目“面向三元空間的因特網中文信息處理理論與方法”。2.2012年-2015年,NSFC面上項目“關鍵詞抽取與社會標籤推薦相結合的中文文本主題詞自動標註方法研究”。3.2012年-2016年,NSFC重點項目“篇章級中文語義分析理論與方法”。4.2009年-2011年,NSFC面上項目“漢語複雜網絡的性質、結構、演化及其典型應用研究”。5.2007年-2009年,863項目“大規模網絡圖文數據的語義分類和適度理解技術研究”。+ 6.2011年-2013年,東芝公司研究項目“面向中文文檔分類的技術研發”。7.2011年-2012年,Google公司研究項目“移動查詢助理和查詢結果摘要”。8.2010年-2011年,Google公司研究項目“信息標註與社區發現的大規模算法研究”。9.2009年-2011年,Google公司研究項目“針對流文本集的並行LDA”。