Python數據挖掘與機器學習(第2版·微課視頻版)
魏偉一 張國治 張志昌 編著
- 出版商: 清華大學
- 出版日期: 2024-08-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- 裝訂: 平裝
- ISBN: 7302663416
- ISBN-13: 9787302663416
-
相關分類:
Machine Learning
下單後立即進貨 (約4週~6週)
商品描述
"本書主要介紹數據挖掘與機器學習的基本概念和方法,包括緒論、Python數據分析與挖掘 基礎、 認識數據、數據預處理、 回歸 分析、關聯規則挖掘、分類、聚類、神經網絡與深度學習、離群點檢測 、文本和時序數據挖掘、數據挖掘案例 等內容。 各章力求原理敘述清晰,易於理解,突出理論聯系實際, 輔以Python代碼實踐與指導,引領讀者更好地理解與應用算法,快速邁進數據挖掘領域 ,掌握機器學習算法的理論和應用。 本書可作為高等學校電腦科學與技術、數據科學與大數據技術等相關專業的教材,也可作為科研人員、工程師和大數據愛好者的參考書。 "
目錄大綱
目錄
掃一掃
源碼下載
第1章緒論
1.1數據挖掘簡介
1.2數據分析與數據挖掘
1.3數據挖掘的主要任務
1.3.1關聯分析
1.3.2數據建模預測
1.3.3聚類分析
1.3.4離群點檢測
1.4數據挖掘的數據源
1.4.1數據庫數據
1.4.2數據倉庫
1.4.3事務數據庫
1.4.4其他類型數據
1.5數據挖掘使用的技術
1.5.1統計學
1.5.2機器學習
1.5.3數據庫管理系統與數據倉庫
1.6數據挖掘存在的主要問題
1.7數據挖掘建模的常用工具
1.7.1商用工具
1.7.2開源工具
1.8為何選用Python進行數據挖掘
1.9Python數據挖掘常用庫
1.10Jupyter Notebook的使用
1.11小結
習題1
第2章Python數據分析與挖掘基礎
2.1Python程序概述
2.1.1基礎數據類型
2.1.2變量和賦值
2.1.3運算符和表達式
2.1.4字符串
2.1.5流程控制
2.1.6函數
2.2內建數據結構
2.2.1列表
2.2.2元組
2.2.3字典
2.2.4集合
2.3NumPy數值運算基礎
2.3.1創建數組對象
2.3.2ndarray對象屬性和數據轉換
2.3.3生成隨機數
2.3.4數組變換
2.3.5數組的索引和切片
2.3.6數組的運算
2.3.7NumPy中的數據統計與分析
2.4Pandas統計分析基礎
2.4.1Pandas中的數據結構
2.4.2索引對象
2.4.3查看DataFrame的常用屬性
2.4.4DataFrame的數據查詢與編輯
2.4.5Pandas數據運算
2.4.6函數應用與映射
2.4.7排序
2.4.8匯總與統計
2.4.9數據分組與聚合
2.4.10Pandas數據讀取與存儲
2.5Matplotlib圖表繪制基礎
2.5.1Matplotlib簡介
2.5.2Matplotlib繪圖基礎
2.5.3設置pyplot的動態rc參數
2.5.4文本註解
2.5.5pyplot中的常用繪圖
2.6scikitlearn
2.6.1scikitlearn簡介
2.6.2scikitlearn中的數據集
2.6.3scikitlearn的主要功能
2.7小結
習題2
本章實訓: 體檢數據分析與可視化
第3章認識數據
3.1屬性及其類型
3.1.1屬性
3.1.2屬性類型
3.2數據的基本統計描述
3.2.1中心趨勢度量
3.2.2數據散佈度量
3.3數據可視化
3.3.1基於像素的可視化技術
3.3.2幾何投影可視化技術
3.3.3基於圖符的可視化技術
3.3.4層次可視化技術
3.3.5可視化復雜對象和關系
3.3.6高維數據可視化
3.3.7Python可視化
3.4數據對象的相似性度量
3.4.1數據矩陣和相異性矩陣
3.4.2標稱屬性的相似性度量
3.4.3二元屬性的相似性度量
3.4.4數值屬性的相似性度量
3.4.5序數屬性的相似性度量
3.4.6混合類型屬性的相似性
3.4.7餘弦相似性
3.4.8距離度量Python實現
3.5小結
習題3
本章實訓: 數據探索性分析
第4章數據預處理
4.1數據預處理的必要性
4.1.1原始數據中存在的問題
4.1.2數據質量要求
4.2數據清洗
4.2.1數據清洗方法
4.2.2利用Pandas進行數據清洗
4.3數據集成
4.3.1數據集成過程中的關鍵問題
4.3.2利用Pandas合並數據
4.4數據標準化
4.4.1離差標準化數據
4.4.2標準差標準化數據
4.5數據歸約
4.5.1維歸約
4.5.2數量歸約
4.5.3數據壓縮
4.6數據變換與數據離散化
4.6.1數據變換的策略
4.6.2Python數據變換與離散化
4.7利用scikitlearn進行數據預處理
4.8小結
習題4
本章實訓: 用電量數據預處理
第5章回歸分析
5.1回歸分析概述
5.1.1回歸分析的定義與分類
5.1.2回歸分析的過程
5.1.3回歸算法的評價
5.2一元線性回歸分析
5.2.1一元線性回歸方法
5.2.2一元線性回歸模型的參數估計
5.2.3一元線性回歸模型的誤差方差估計
5.2.4一元回歸模型的主要統計檢驗
5.2.5一元線性回歸的Python實現
5.3多元線性回歸
5.3.1多元線性回歸模型
5.3.2多元線性回歸模型的參數估計
5.3.3多元線性回歸的假設檢驗及其評價
5.3.4多元線性回歸的Python實現
5.4邏輯回歸
5.4.1邏輯回歸模型
5.4.2邏輯回歸的Python實現
5.5其他回歸分析
5.5.1多項式回歸
5.5.2嶺回歸
5.5.3Lasso回歸
5.5.4彈性網絡回歸
5.5.5逐步回歸
5.6小結
習題5
本章實訓: 糖尿病數據的回歸分析
第6章關聯規則挖掘
6.1關聯規則分析概述
6.2頻繁項集、閉項集和關聯規則
6.3頻繁項集挖掘方法
6.3.1Apriori算法
6.3.2由頻繁項集產生關聯規則
6.3.3提高Apriori算法的效率
6.3.4頻繁模式增長算法
6.3.5使用垂直數據格式挖掘頻繁項集
6.4關聯模式評估方法
6.4.1強關聯規則不一定是有趣的
6.4.2從關聯分析到相關分析
6.5Apriori算法應用
6.6小結
習題6
本章實訓: 毒蘑菇特徵分析
第7章分類
7.1分類概述
7.2決策樹歸納
7.2.1決策樹原理
7.2.2ID3算法
7.2.3C4.5算法
7.2.4CART算法
7.2.5樹剪枝
7.2.6決策樹應用
7.3K近鄰算法
7.3.1算法原理
7.3.2Python算法實現
7.4支持向量機
7.4.1算法原理
7.4.2Python算法實現
7.5貝葉斯分類方法
7.5.1算法原理
7.5.2樸素貝葉斯分類
7.5.3高斯樸素貝葉斯分類
7.5.4多項式樸素貝葉斯分類
7.5.5樸素貝葉斯分類應用
7.6模型評估與選擇
7.6.1分類器性能的度量
7.6.2模型選擇
7.7組合分類
7.7.1組合分類方法簡介
7.7.2袋裝
7.7.3提升和AdaBoost
7.7.4隨機森林
7.8小結
習題7
本章實訓: 乳腺癌預測
第8章聚類
8.1聚類分析概述
8.1.1聚類分析的概念
8.1.2聚類算法分類
8.2KMeans聚類
8.2.1算法原理
8.2.2算法改進
8.2.3KMeans算法實現
8.3層次聚類
8.3.1算法原理
8.3.2簇間的距離度量
8.3.3凝聚層次聚類
8.3.4分裂層次聚類
8.3.5層次聚類應用
8.4基於密度的聚類
8.4.1算法原理
8.4.2算法改進
8.4.3DBSCAN算法實現
8.5其他聚類方法
8.5.1STING聚類
8.5.2概念聚類
8.5.3模糊聚類
8.5.4高斯混合模型聚類
8.5.5近鄰傳播聚類
8.6聚類評估
8.6.1聚類趨勢的估計
8.6.2聚類簇數的確定
8.6.3聚類質量的測定
8.7小結
習題8
本章實訓: 鳶尾花數據聚類分析
第9章神經網絡與深度學習
9.1神經網絡基礎
9.1.1神經元模型
9.1.2感知機與多層網絡
9.2BP神經網絡
9.2.1多層前饋神經網絡
9.2.2後向傳播算法
9.2.3BP神經網絡應用
9.3深度學習
9.3.1深度學習概述
9.3.2常用的深度學習算法
9.4小結
習題9
本章實訓: 應用BP神經網絡實現鳶尾花分類
第10章離群點檢測
10.1離群點概述
10.1.1離群點的概念
10.1.2離群點的類型
10.1.3離群點檢測的挑戰
10.2離群點的檢測
10.2.1基於統計學的離群點檢測
10.2.2基於鄰近性的離群點檢測
10.2.3基於聚類的離群點檢測
10.2.4基於分類的離群點檢測
10.3scikitlearn中的異常檢測方法
10.4小結
習題10
本章實訓: 離群點檢測
第11章文本和時序數據挖掘
11.1文本數據挖掘
11.1.1文本挖掘概述
11.1.2文本挖掘的過程與任務
11.1.3文本分析與挖掘的主要方法
11.2時序數據挖掘
11.2.1時間序列和時間序列數據分析
11.2.2時間序列平穩性和隨機性判定
11.2.3自回歸滑動平均模型(ARMA)
11.2.4差分整合移動平均自回歸模型(ARIMA)
11.2.5季節性差分自回歸移動平均模型(SARIMA)
11.3小結
習題11
第12章數據挖掘案例
12.1泰坦尼克號乘客生還預測
12.2使用邏輯回歸、SVM和BP神經網絡進行手寫體數字識別
12.3客戶數據聚類分析
12.4圖像的聚類分割
12.5小結
參考文獻