文本挖掘技術及其應用 文本挖掘技术及其应用

謝邦昌, 朱建平

  • 出版商: 廈門大學
  • 出版日期: 2016-03-01
  • 定價: $192
  • 售價: 8.5$163
  • 語言: 簡體中文
  • 頁數: 152
  • 裝訂: 平裝
  • ISBN: 7561559712
  • ISBN-13: 9787561559710

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

<內容簡介>

 

《文本挖掘技術及其應用》包括四個部分:

第一部分包括兩章,介紹常用文本挖掘技術,總結基本流程。

第二部分共五章,在R軟件上詳細介紹了文本挖掘,包括R 軟件的簡介與安裝,文本挖掘所需的基本R包,Facebook、微博、Twitter、網頁等爬蟲技術、數據預處理如斷詞、字詞處理、語料庫建立等,資料分析如關聯分析、集群分析、主成份分析和聚類分析。

三部分共兩章,在MS SQL Sever上介紹如何實現文本挖掘,第一章是數據預處理技術,包括怎麼導入文本數據、建立字詞與詞向量、建立訓練集和測試集,第二章在MS SQL Sever上實現常用的文本數據挖掘方法,並進行圖表分析。第四部分為顧問公司和新聞網合作的案例。

第四部分為顧問公司和新聞網合作的案例。

 

 

<作者簡介>

 

謝邦昌

男,台灣大學生物統計博士,現任台灣臺北醫學大學管理學院副院長、大數據研究中心主任,“中華市場研究協會”理事長,“中華資料採礦協會”榮譽理事長,廈門大學講座教授。主要研究方向為大數據分析、數據挖掘。

朱建平

男,南開大學理學博士,現任廈門大學管理學院教授、博士生導師、廈門大學數據挖掘研究中心主任,浙江工商大學現代商貿流通體系建設協同創新中心首席專家。擔任中國統計學會副會長、教育部高等學校統計學類專業教學指導委員會秘書長。主要研究方向為數理統計、數據挖掘。

李毅

男,韓國嶺南大學理學博士.現為山西財經大學統計學院副教授,碩士生導師。研究方向為數據挖掘和生物統計,主持國家自然基金、國家統計局重點課題等5項。發表學術論文20餘篇,其中被SCI收錄10餘篇。

 

 

<章節目錄>

 

第一部分  文本挖掘技術

 

第一章  緒論

1.1     整合文本挖掘與數據挖掘

1.2     基礎技術

 

第二章  資料分析

2.1     數據分析作業

2.1.1   數據清洗 

2.1.2   建立基本詞彙數據庫

2.1.3   Metaclata(元數據)及非結構化文本數據的自動分類

2.1.4   數據聚類

2.1.5   關係型分析

2.2     基礎挖掘過程

2.2.1   文獻的樹狀知識分類

2.2.2   數據檢索

2.2.3   主題偵測追蹤

2.2.4   概念叢集

2.2.5   個人化議題式詞庫(增列)

2.2.6   動態索引詞庫

2.2.7   推論分析

 

第二部分  文本挖掘:以R軟件為例

 

第三章  R軟件

3.1     R軟件簡介

3.2     R軟件的特色

3.3     R軟件的基本安裝

3.4     程序包安裝

 

第四章  基本工具

4.1     基本工具

4.1.1   安裝rJava包

4.1.2   安裝Rwordseg包

4.1.3   安裝tm包

4.1.4   安裝tmcn包

4.1.5   安裝wordcloud、ggplot2、graphics包

4.1.6   安裝Rfacebook、Rweibo、Rtwitter包

4.2     社群開放平臺權限申請

4.2.1   如何獲得Facebook權限

4.2.2   如何獲得微博權限

 

第五章  文本挖掘之爬蟲

5.1     Rfacebook 

5.1.1   用戶發文

5.1.2   粉絲發文

5.1.3   所需R包

5.2     Rweibo 

5.2.1   主題

5.2.2   實例說明

5.2.3   所需R包

5.3     R Twitter 

5.3.1   關鍵詞

5.3.2   所需R包

5.4      網頁爬蟲

5.4.1   爬一般網頁文字

5.4.1   爬PTT網頁文字

5.4.3   所需R包

5.5     SpideR 

5.5.1   所需R包

5.5.2   有關爬蟲時的註意事項

5.5.3   抓取網頁數據的標準作業程序

5.5.4   R IDE的編碼

5.5.5   讀取文檔或網頁的編碼

5.5.6   R IDE開發spideR面對編碼的解決方案

 

第六章  數據預處理

6.1     編碼處理

6.1.1   亂碼問題

6.1.2   字符編碼種類

6.2     代表性語料庫、詞庫簡介

6.2.1   知網http:www.keenage.com 

6.2.2   中文詞知識庫小組(http://ckip.iis.sinica.edu.tw/CKIP/index.htm)

6.3     斷詞方法

6.4     字詞處理

6.5     語料庫建立

6.6     正則表達式(regular expressions) 

 

第七章  資料分析

7.1     頻率(詞頻)

7.2     DTM(TDM)matrix 

7.2.1   DocumentTermMatrix與TermDocumentMatrix 

7.2.2   稀疏矩陣(sparse matrix)

7.3     關聯分析

7.4     聚類分析

7.4.1   常用的兩種相似係數

7.4.2   常用的點間距離公式

7.4.3   層次式聚類法

7.4.4   非層次式聚類法

7.4.5   R聚類分析語法

7.5     主成分分析

7.5.1   主成分分析原理

7.5.2   主成分分析數學模型

7.5.3   主成分特性

7.5.4   R語言主成分分析語法

7.6     詞雲聚類分析

7.6.1   詞雲聚類簡介

7.6.2   R語言詞雲聚類語法

 

第三部  分文本挖掘之SQL Server 2014 

 

第八章  SQL Server 2014簡介

8.1     商業智能應用程序

8.2     文本挖掘技術

 

第九章  文本挖掘應用

9.1     導入文本數據

9.2     建立NGArticles的詞庫

9.2.1   建立詞庫(Dictionary ) 

9.2.2   建立詞向量

9.2.3   建立Train Sample和Test Sample 

 

第十章  資料分析

10.1    串聯Train Samplc、Test Sample和Term Vectors 

10.2    構建數據挖掘模型(決策樹、神經網絡、邏輯回歸)

10.3    圖表分析

10.3.1  各模型的準確度圖表分析

10.3.2  決策樹圖表分析

10.3.3  神經網絡圖表分析

 

第十一章  文本挖掘在實務上的應用

11.1    創造商機

11.1.1  商品賣得好

11.1.2  社群操作得好

11.1.3  危機預警

11.1.4  廣告ROI高

11.2    結語