R語言商業分析實戰 R语言商业分析实战

Dr. Umesh R. Hodeghatta Umesha Nayak

買這商品的人也買了...

相關主題

商品描述

本書詳細闡述了與R語言商業分析相關的基本解決方案,主要包括商業分析簡介、R語言概述、R語言數據分析、描述性分析概述、商業分析過程與數據探索、機器學習、線性回歸分析以及邏輯回歸分析等內容。此外,本書還提供了相應的示例,以幫助讀者進一步理解相關方案的實現過程。 本書適合作為高等院校電腦及相關專業的教材和教學參考書,也可作為相關開發人員的自學教材和參考手冊。

作者簡介

作者:(美)優曼許·R.霍奇哈塔 、優曼許·納亞克 譯者:王勝夏、楊莉靈、秦雙夏

Umesh Rao Hodeghatta博士在機器學習、NLP和商業分析領域中是一名備受讚譽的專家。他擁有俄克拉荷馬州立大學電氣工程碩士學位、印度理工學院(IIT)卡哈拉格普爾(分院)的博士學位,專業(方向)為機器學習和NLP。Hodeghatta博士在Wipro Technologies、McAfee、Cisco Systems和AT&T Bell實驗室擔任技術和高級管理職務。而且,他在國際期刊和會議論文集中發表了許多期刊文章。此外,他也是《信息安全導論指南》(The InfoSec Handbook: An Introduction to Information Security)的合著者。Hodeghatta博士為許多專業組織和監管機構做出了不少貢獻,其中包括IEEE計算機學會(印度)、美國的信息系統審計和控制協會(ISACA)、(印度)奧迪薩邦政府、印度的國際神經網絡學會(INNS),以及商業智能與知識管理專門小組。同時,他也是IEEE的資深成員。如需了解Hodeghatta博士的更多詳細信息,請訪問www.mytechnospeak.com。可以通過Email:umesh_hr@yahoo. corn與他取得聯繫。Umesha,Nayak先生是MUSA軟件工程總監兼首席顧問,主要負責系統、流程和管理諮詢。他擁有35年的工作經驗,在此期間從事IT/製造和全球其他組織的諮詢工作,時間長達14年。此外,Nayak先生擁有軟件系統碩士學位和經濟碩士學位。他獲得的認證包括印度銀行家協會認證專員(CAIIB)、國際信息系統審計師(CISA)和ISACA的風險及信息系統控制認證(CRISC)、財務管理研究生(PGDFM)、多項標準的總審計師,以及認證培訓師等。他的工作範圍廣泛,包括銀行、軟件開發、產品設計與開發、項目管理、計劃管理、信息技術審計、信息應用審計、質量保證、培訓、產品可靠性、人力資源管理、商業分析和諮詢等。在現任職務之前,他曾在印度金奈的北極星軟件實驗室擔任副總裁兼公司執行理事會成員。1981年,他開始涉足計算機行業,從ICL大型機開始,然後是迷你計算機和個人電腦。Nayak先生也是印度銀行業信息系統審計的創始成員之一。依靠成功的ISO 9001、ISO 27001、CMMI和其他認證,以及流程/產品改進和商業分析,Nayak先生給許多組織機構提供了卓有成效的指導。他還和Hodeghatta博士共同撰寫了《信息安全導論指南》。

目錄大綱

第1章商業分析簡介1 
1.1本書目的3 
1.2容易混淆的術語3 
1.3商業分析的發展動因4 
1.3.1計算機軟件包和應用程序的增長5 
1.3.2整合各種數據源的可行性5 
1.3.3無限存儲和計算能力的增長6 
1.3.4簡單易用的編程工具和平台6 
1.3.5競爭激烈世界中的生存與發展6 
1.3.6全球化商業的複雜性6 
1.4商業分析的應用6 
1.4.1市場營銷與銷售7 
1.4.2人力資源7 
1.4.3產品設計7 
1.4.4服務設計8 
1.4.5客戶服務和支持範圍8 
1.5商業分析師的必備技能8 
1.5.1理解商業和商業問題8 
1.5.2理解數據分析技術和算法9 
1.5.3具備良好的計算機編程知識9 
1.5.4理解數據結構和數據存儲/倉儲技術9 
1.5.5了解統計學和數學的相關概念知識9 
1.6商業分析項目的分析過程10 
1.7商業分析框架11 
1.8小結12 

第2章R語言概述13 
2.1數據分析工具13 
2.2 R語言安裝16
2.2.1安裝R語言16 
2.2.2安裝RStudio 17 
2.2.3探索RStudio界面18 
2.3 R編程基礎19 
2.3.1賦值20 
2.3.2創建向量21 
2.4 R語言對像類型21 
2.5 R語言的數據結構23 
2.5 .1矩陣23 
2.5.2數組24 
2.5.3數據框26 
2.5.4列表27 
2.5.5因子28 
2.6小結29 

第3章R語言數據分析31 
3.1讀寫數據31 
3.1.1從文本文件讀取數據32 
3.1.2從Microsoft Excel文件讀取數據35 
3.1.3從Web讀取數據37 
3.2在R語言中使用控制結構37 
3.2.1 if-else 38 
3.2.2 for循環39 
3.2.3 while循環39 
3.2 .4循環功能40 
3.2.5在R語言中自編函數47 
3.3使用R語言軟件包和庫48 
3.4小結49 

第4章描述性分析概述51 
4.1描述性分析54 
4.2總體和样本54 
4.3有關的統計參數55
4.3.1均值55 
4.3.2中位數57 
4.3.3眾數59 
4.3.4全距59 
4.3.5分位數60 
4.3.6標準差(Standard Deviation) 61 
4.3.7方差(Variance) 64 
4.3 .8 R語言的summary命令64 
4.4數據的圖形描述65 
4.4.1 R語言的plot命令65 
4.4.2直方圖67 
4.4.3條形圖68 
4.4.4箱線圖68 
4.5數據框計算69 
4.6概率73 
4.6.1互斥事件的概率74 
4.6.2相互獨立事件的概率74 
4.6.3非互斥事件概率75 
4.6.4概率分佈75 
4.7小結77 

第5章商業分析過程與數據探索79 
5.1商業分析過程79 
5.1.1第一階段:理解商業問題79 
5.1.2第二階段:收集和整合數據79 
5.1.3第三階段:預處理數據80 
5.1.4第四階段:探索和可視化數據80 
5.1. 5第五階段:選擇建模技術和算法81 
5.1.6第六階段:評估模型81 
5.1.7第七階段:管理和審查報告81
5.1.8第八階段:部署模型81 
5.2理解商業問題82 
5.3收集和整合數據82 
5.3.1抽樣83 
5.3.2變量選擇84 
5.4預處理數據85 
5.4.1數據類型85 
5.4.2數據準備86 
5.4 .3使用R語言進行數據預處理87 
5.5數據探索和數據可視化91 
5.5.1表格92 
5.5.2匯總表92 
5.5.3圖形93 
5.5.4散點圖矩陣97 
5.5.5數據轉換101 
5.6使用建模技術和算法102 
5.6.1描述性分析103 
5.6.2預測分析103 
5.6.3機器學習103 
5.7評估模型106 
5.7.1訓練數據分區106 
5.7.2測試數據分區106 
5.7.3驗證數據分區107 
5.7 .4交叉驗證107 
5.7.5分類模型評估108 
5.7.6回歸模型評估111 
5.8提交管理報告和審查112 
5.8.1描述問題112 
5.8.2使用的數據集112 
5.8.3執行數據清洗112 
5.8.4創建模型的方法112
5.8.5模型部署前提條件113 
5.8.6模型部署和使用113 
5.8.7問題處理113 
5.9部署模型113 
5.10小結114 

第6章監督機器學習:分類115 
6.1什麼是分類?什麼是預測?115 
6.2概率分類器模型116 
6.2.1示例117 
6.2.2 R語言樸素貝葉斯分類器118 
6.2.3樸素貝葉斯分類器的優點和局限性119 
6.3決策樹120 
6.3.1遞歸分割決策樹算法121 
6.3.2信息增益121 
6.3.3決策樹示例123 
6.3.4決策樹歸納124 
6.3.5樹分類規則127 
6.3.6過擬合和欠擬合127 
6.3.7偏差和方差(Bias and Variance ) 128 
6.3.8避免過擬合誤差和確定決策樹生長的規模129 
6.4其他分類器類型131 
6.4.1 K-最近鄰131 
6.4.2隨機森林132 
6.5 R語言分類示例134 
6.6小結138 

第7章無監督機器學習139 
7.1聚類概述139 
7.2什麼是聚類140 
7.2.1兩個記錄之間的測量方法141
7.2.2分類變量的距離度量142 
7.2.3混合型數據的距離度量142 
7.2.4兩個聚類之間的距離143 
7.3層次聚類145 
7.3.1樹狀圖145 
7.3.2層次聚類的局限性145 
7.4非層次聚類146 
7.4.1 k-means算法146 
7.4.2 k-means聚類的局限性147 
7.5聚類案例研究148 
7.5.1僅保留數據集中的相關變量149 
7.5.2從數據集中刪除任何異常值149 
7.5.3數據歸一化(Standardize the Data) 150 
7.5.4計算數據點之間的距離150 
7.6關聯規則157 
7.6.1選擇規則158 
7.6.2關聯規則生成示例160 
7.6 .3解讀結果161 
7.7小結162 

第8章簡單線性回歸分析163 
8.1概述163 
8.2相關性164 
8.3假設檢驗167 
8.4簡單線性回歸分析168 
8.4.1回歸假設168 
8.4.2簡單線性回歸方程168 
8.4.3 R語言創建簡單回歸方程169 
8.4.4檢驗回歸假設171
8.4.5結論176 
8.4.6預測響應變量176 
8.4.7補充說明177 
8.5小結178 

第9章多元線性回歸分析179 
9.1使用多元線性回歸分析180 
9.1.1數據181 
9.1.2相關性181 
9.1.3構建模型182 
9.1.4驗證回歸假設184 
9.1.5多重共線性188 
9.1.6逐步多元線性回歸分析190 
9.1.7全子集多元線性回歸分析191 
9.1.8多元線性回歸方程193 
9.1.9結論193 
9.2 R語言的替代方法193 
9.3預測響應變量194 
9.4訓練和測試模型195 
9.5交叉驗證196 
9.6小結198 

第10章邏輯回歸分析201 
10.1邏輯回歸202 
10.1.1數據203 
10.1.2構建模型204 
10.1.3模型擬合驗證207 
10.1.4一般注意事項208 
10.1.5多重共線性208 
10.1.6離散209 
10.1.7邏輯回歸分析結論209 
10.2模型訓練和測試209
10.2.1預測響應變量211 
10.2.2驗證邏輯回歸模型的其他替代方法212 
10.3多項邏輯回歸分析213 
10.4正則化214 
10.5小結220 

第11章大數據分析:介紹及未來趨勢221 
11.1大數據生態系統222 
11.2大數據分析的未來趨勢225 
11.2.1發展壯大的社交媒體225 
11.2.2創建數據湖225 
11.2.3企業用戶手中的可視化工具225 
11.2.4規範性分析225 
11.2.5物聯網226 
11.2. 6人工智能226 
11.2.7全數據處理226 
11.2.8數據垂直應用和橫向應用226 
11.2.9實時分析226 
11.2.10將數據分析工具交由企業用戶使用227 
11.2.11將解決方案從一個工具遷移到另一個工具227 
11.2.12云無處不在227 
11.2.13數據庫內分析227 
11.2.14內存分析228 
11.2.15機器學習的自主服務228 
11.2.16安全和合規性228 
11.2.17醫療保健228