大數據分析實務 -- RapidMiner 之應用

邢厂民

  • 出版商: 碁峰資訊
  • 出版日期: 2023-09-08
  • 定價: $500
  • 售價: 7.9$395
  • 語言: 繁體中文
  • 頁數: 336
  • 裝訂: 平裝
  • ISBN: 6263245921
  • ISBN-13: 9786263245921
  • 相關分類: 大數據 Big-dataData Science
  • 立即出貨 (庫存 > 10)

買這商品的人也買了...

商品描述

本書使用免費下載的「RapidMiner」軟體,該軟體使用圖形化界面,不需編寫程式、操作簡易、功能強大且應用廣泛,適合初學與進階資料分析人士使用。

本書從基礎的資料取得、事前處理到模型的建置、評分、驗證與實例分析等,以實作方式,循序漸進的介紹大數據分析的操作步驟與流程。

全書提供30個案例,內容包含金融、製造、銷售、管理、醫療、休閒、氣象與情感分析文字探勘等諸多領域的應用實例,除了對現有結構與非結構式資料進行分析外,同時利用訓練模型預測未來,提升數據分析的實用價值。

本書除提供數據資料檔Data File外,亦附有各章節之程式/流程檔供讀者參考。
 

目錄大綱

Chapter 00 RapidMiner 軟體下載、介面說明與注意事項

Chapter 01 基礎篇
本章介紹使用RapidMiner平台的基礎知識,涵蓋內容從如何取得與過濾資料到改變資料的類型與角色以及對各類型檔案的讀取與儲存等。本章同時涵蓋如何建置一個基本模型,以及認識變數的結合、分類、新增與選擇等功能。

Chapter 02 資料處理
本章介紹資料的前置處理,內容包含遺漏值的處理、資料的常態化與刪除離群值以及變數的樞紐轉換與重新命名等;同時涵蓋使用巨集、迴圈與分支等運算式進行抽樣以及多個資料檔案的讀入、儲存、合併、運算與結合等。在時間序列資料的前置處裡部分,會介紹如何將日資料轉換為月平均以及季平均資料的方式。

Chapter 03 模型之建置、評分與驗證
本章介紹分類模型之建置、預測、績效評估以及驗證方式,內容包含分割資料與交叉驗證的差異。使用之演算法包含決策樹、簡單貝式法、規則歸納法以及羅吉斯回歸等。在比較不同演算法績效表現方面,除了常用之準確率、精確率與召回率等指標外,更介紹以視覺化模型(ROC曲線)進行分析。

Chapter 04 多元實例練習
本章涵蓋實例練習的第一部分,主題包含國人赴國外旅遊人數分析、台灣50的股票價格分群、參數最佳化及對交易對手信用違約預測、調整不平衡資料及對客戶流失預測、建置增益圖找出最可能流失的客戶群集中行銷、依據基地台號碼與座標位置找出距離最近的基地台、使用回歸模型預測二手車售價以及依據羅吉斯回歸模型最佳變數預測新生嬰兒體重是否過輕。

Chapter 05 進階實例練習
本章涵蓋實作練習的第二部分,主題包含根據民眾就醫資料偵測醫療詐欺行為、使用關聯性法則判斷那些商品經常同時購買、針對連續未達測試績效的預測模型郵寄警訊至相關人員、依據機器各部位感應器記錄找出發生故障的主要來源、使用K-NN模型預測機器是否將發生故障以預先安排維修工作、檢視S&P 500的移動平均以及線性與非線性趨勢、使用視窗與滑動視窗驗證根據公司財報資料預測股價、處裡視窗資料、使用交叉驗證與時間序列滑動視窗驗證以及單變量ARIMA模型進行溫度預測、使用單變量Holt-Winters模型預測貿易出口值以及計算並根據顧客之RFM值進行顧客分群與執行問卷回覆分析。

Chapter 06 中英文文字探勘
本章介紹如何執行中英文文字探勘並據以分析,英文文字探勘的主題包含利用書籍名稱預測圖書主題、尋找程式設計師徵才廣告所列之主要條件、分析顧客對藍芽耳機的文字評價以及檢視正負評價中的主要詞彙。中文探勘結合了Python的Jieba套件進行中文斷字,涵蓋主題包含尋找2012年以及2020年總統就職演說使用的主要詞彙、消費者情緒分析以及對網路新聞的文字探勘。