數據挖掘與信息安全:原理與實踐

閆雷鳴、付章傑、王金偉、林雪綱、熊禮治、陳先意

  • 出版商: 清華大學
  • 出版日期: 2026-03-01
  • 定價: $359
  • 售價: $358
  • 語言: 簡體中文
  • ISBN: 7302708797
  • ISBN-13: 9787302708797
  • 相關分類: Data-miningPenetration-test
  • 下單後立即進貨 (約4週~6週)

  • 數據挖掘與信息安全:原理與實踐-preview-1
  • 數據挖掘與信息安全:原理與實踐-preview-2
  • 數據挖掘與信息安全:原理與實踐-preview-3
  • 數據挖掘與信息安全:原理與實踐-preview-4
  • 數據挖掘與信息安全:原理與實踐-preview-5
  • 數據挖掘與信息安全:原理與實踐-preview-6
  • 數據挖掘與信息安全:原理與實踐-preview-7
數據挖掘與信息安全:原理與實踐-preview-1

商品描述

"本書圍繞大數據背景下的數據挖掘技術與信息安全的交叉融合領域,從數據挖掘的基本概念入手,由淺入深、循序漸進地介紹數據挖掘分析的實施步驟、數據探索預處理、常用算法(分類算法、聚類分析、異常檢測方法)等,以及前沿領域的深度學習、人工智能安全、對抗樣本安全等內容。同時,為深入掌握相關方法的創新應用,本書精心篩選了惡意軟件檢測、網絡流量分析、入侵檢測等實踐案例,綜合運用數據挖掘方法剖析並解決這些實際問題,案例均采用Python語言編程實現。 本書既適用於計算機科學與技術、網絡空間安全、人工智能、數據科學與技術等相關專業的本科生與研究生,也可作為信息安全工程師、數據科學家的工具書。本書提供了相關案例的在線實踐與學習資源,旨在幫助讀者掌握數據挖掘的基本知識,並將其應用於信息安全領域,為維護網絡空間的安全貢獻一份力量。 "

目錄大綱

目錄

配套資源

第1章緒論1

1.1數據挖掘的基本概念2

1.1.1定義2

1.1.2基本流程2

1.1.3發展歷程3

1.1.4應用場景3

1.2為什麼需要數據挖掘4

1.2.1應對爆炸式數據

增長5

1.2.2提升決策智能化

水平5

1.2.3加強風險管理與

控制5

1.3相關前沿技術5

1.3.1深度學習6

1.3.2生成模型與強化

學習6

1.3.3可視化數據挖掘7

1.3.4隱私保護數據挖掘8

1.3.5可解釋性和透明性10

1.4主要分析方法10

1.4.1分類與回歸10

1.4.2聚類分析11

1.4.3關聯規則12

1.5數字取證相關規範12

1.5.1公安機關辦理刑事

案件電子數據取證

規則12

1.5.2市場監督管理行政

執法電子數據取證

暫行規定13

1.6本章小結14

1.7本章習題14

參考文獻14

第2章數據預處理與特征工程16

2.1數據探索和可視化17

2.1.1數據探索17

2.1.2可視化方法18

2.2常見數據度量方法22

2.2.1基本度量方法22

2.2.2相似度度量25

2.3數據編碼方法30

2.3.1標簽編碼30

2.3.2獨熱編碼31

2.3.3二進制編碼31

2.3.4哈希編碼32

2.4數據規範化方法32

2.4.1最小最大規範化32

2.4.2ZScore規範化33

2.4.3小數定標規範化33

2.5噪聲和缺失值處理33

2.5.1平滑噪聲數據34

2.5.2填充缺失值36

2.6特征工程38

2.6.1降維38

2.6.2特征選擇40

2.7數據增強41

2.7.1傳統方法42

2.7.2基於深度學習的數據

增強45

2.8實踐案例: 金融欺詐數據預

處理47

2.9本章小結50

2.10本章習題51

參考文獻51

第3章決策樹家族與惡意軟件

識別52

3.1決策樹原理53

3.1.1基本概念54

3.1.2決策樹的構建54

3.1.3信息增益56

3.1.4基尼指數58

3.2經典決策樹算法59

3.2.1ID3算法59

3.2.2C4.5算法60

3.2.3CART決策樹60

3.2.4剪枝61

3.2.5決策樹的優缺點62

3.3集成學習62

3.3.1裝袋法63

3.3.2提升法64

3.3.3堆疊法65

3.4Adaboost與Random 

Forest66

3.4.1Adaboost算法原理…66

3.4.2模型評價指標68

3.4.3Adaboost算法實踐…69

3.4.4Adaboost算法的

優缺點70

3.4.5Random Forest原理…71

3.4.6Random Forest算法

實踐71

3.4.7Random Forest參數

介紹72

3.4.8Random Forest的

優缺點73

3.5梯度提升決策樹、XGBoost與

LightGBM74

3.5.1梯度提升決策樹原理…74

3.5.2梯度提升決策樹實踐…75

3.5.3XGBoost算法原理……76

3.5.4XGBoost算法實踐……77

3.5.5LightGBM算法原理…78

3.5.6LightGBM算法實踐…79

3.6惡意軟件檢測80

3.6.1什麼是惡意軟件81

3.6.2惡意軟件危害82

3.6.3惡意軟件檢測方法83

3.6.4惡意軟件檢測的困難…85

3.7實踐案例: 勒索軟件的自動

識別86

3.7.1數據加載與探索86

3.7.2特征選擇與數據集

劃分87

3.7.3模型訓練及評估88

3.7.4案例總結88

3.8本章小結89

3.9本章習題89

參考文獻90

第4章支持向量機與系統故障

診斷91

4.1支持向量機基本原理92

4.1.1最優超平面與間隔92

4.1.2線性可分支持向

量機93

4.1.3線性支持向量機96

4.1.4非線性支持向量機與

核函數98

4.2支持向量機應用101

4.2.1線性支持向量機

應用101

4.2.2基於核函數的非線性

支持向量機應用104

4.3支持向量機參數調節106

4.3.1網格搜索106

4.3.2隨機搜索108

4.3.3貝葉斯優化109

4.4實踐問題: 不均衡數據與

解決方法110

4.4.1重采樣方法111

4.4.2代價敏感方法113

4.5實踐案例: 氣象信息系統

故障診斷115

4.5.1案例介紹115

4.5.2案例實踐115

4.6本章小結118

4.7本章習題119

參考文獻119

第5章關聯規則與網絡入侵事件

分析120

5.1關聯規則定義121

5.1.1定義121

5.1.2度量標準121

5.2頻繁項集類型123

5.2.1頻繁項集123

5.2.2閉(合)頻繁項集124

5.2.3最大頻繁項集124

5.3Apriori算法127

5.3.1反單調性127

5.3.2局限性129

5.3.3改進方向130

5.4FPGrowth算法131

5.4.1FP樹表示方法131

5.4.2FP樹構造過程132

5.4.3項頭表與條件模

式基133

5.5實踐案例: 網絡入侵事件

關聯分析136

5.5.1典型場景136

5.5.2案例分析 138

5.6本章小結142

5.7本章習題142

參考文獻143

第6章聚類分析與擴展攻擊144

6.1聚類分析145

6.2聚類方法與相似度145

6.2.1聚類分析方法146

6.2.2經典相似度計算

方法147

6.2.3最新相似度計算

方法147

6.3基於劃分的聚類150

6.3.1KMeans算法151

6.3.2KMedoids算法153

6.3.3其他改進算法154

6.4層次聚類154

6.4.1凝聚的與分裂的層次

聚類154

6.4.2簇間距離度量157

6.4.3BIRCH算法158

6.5基於密度的聚類160

6.5.1DBSCAN算法161

6.5.2HDBSCAN算法163

6.6半監督聚類165

6.6.1AP聚類算法原理…165

6.6.2AP聚類算法應用…166

6.7聚類評價和結果指標166

6.7.1評估聚類趨勢167

6.7.2確定簇的數量168

6.7.3評估聚類質量168

6.8實踐案例: KMeans擴展

攻擊169

6.8.1擴展攻擊169

6.8.2實驗設計169

6.8.3攻擊效果分析173

6.8.4防禦策略174

6.9本章小結174

6.10本章習題174

參考文獻175

第7章離群點檢測與異常數據

識別176

7.1基於統計的異常檢測177

7.1.1數據特征統計量177

7.1.2基於ZScore的檢測

方法178

7.1.3四分位距法179

7.1.4格拉布斯檢驗181

7.1.5馬氏距離法182

7.2Isolation Forest算法184

7.2.1隔離樹的構建184

7.2.2路徑長度與異常分數

的計算186

7.2.3Isolation Forest算法

實踐188

7.3LOF算法190

7.3.1局部密度的定義190

7.3.2LOF值的計算192

7.3.3LOF算法實現193

7.3.4LOF算法的參數選擇

優化194

7.3.5LOF的變體算法195

7.4實踐案例: 金融欺詐異常

數據識別196

7.4.1ZScore算法對金融

異常數據進行識別…196

7.4.2Isolation Forest算法

對金融異常數據進行

識別197

7.4.3LOF算法對金融異常

數據進行識別198

7.5本章小結199

7.6本章習題200

參考文獻200

第8章深度學習與網絡流量

監測202

8.1人工神經網絡203

8.1.1神經元203

8.1.2激活函數與MP

模型204

8.1.3ANN結構205

8.1.4反向傳播206

8.1.5實踐案例209

8.2卷積神經網絡213

8.2.1CNN結構213

8.2.2經典CNN架構215

8.3RNN與LSTM模型216

8.3.1RNN結構216

8.3.2RNN工作原理216

8.3.3LSTM結構217

8.3.4LSTM工作原理218

8.3.5LSTM編碼實踐219

8.4EncoderDecoder模型220

8.4.1EncoderDecoder

工作原理220

8.4.2Transformer與

註意力221

8.4.3EncoderDecoder

應用223

8.5生成對抗網絡223

8.5.1GAN的基本原理223

8.5.2理論分析225

8.6實踐案例: 加密流量監測…227

8.6.1問題與挑戰227

8.6.2常規監測方法227

8.6.3前沿方法: 圖神經

網絡與強化學習228

8.7本章小結229

8.8本章習題230

參考文獻230

第9章人工智能模型安全233

9.1模型安全233

9.2與傳統信息安全的區別與

聯系234

9.3基於數據毒化的模型後門…236

9.3.1模型後門攻擊236

9.3.2模型後門攻擊場景…236

9.3.3典型的數據毒化

攻擊237

9.4基於結構毒化的模型後門…240

9.4.1針對神經元的結構

毒化攻擊240

9.4.2拼接木馬模塊的結構

毒化攻擊241

9.5後門檢測方法243

9.5.1基於神經元激活差異

的後門檢測方法243

9.5.2基於對抗擾動的後門

檢測方法245

9.6後門防禦方法246

9.6.1基於FinePruning的

後門防禦方法247

9.6.2其他後門防禦方法…248

9.7前沿方法: 大模型越獄248

9.7.1大語言模型: 蓬勃

發展與潛在風險248

9.7.2越獄攻擊: 概念、理論

與技術手段248

9.7.3案例: Stable Diffusion

越獄249

9.7.4越獄攻擊的分類與

特點249

9.7.5越獄防禦的分類與

特點250

9.7.6評測指標與工具251

9.8人工智能安全的監管與

倫理253

9.8.1人工智能: 機遇背後

的風險暗湧253

9.8.2國際AI安全監管的

探索254

9.8.3中國AI治理的進展

與挑戰255

9.9本章小結255

參考文獻256第10章對抗樣本安全258

10.1對抗樣本258

10.2對抗樣本生成原理及

方法260

10.2.1基於高斯梯度的遷

移性對抗樣本264

10.2.2基於人類視覺特性

的魯棒不可見對抗

樣本266

10.3對抗防禦原理及方法270

10.4對抗樣本應用271

10.4.1基於矩的免疫防禦

原理及方法271

10.4.2魯棒不可見對抗水

印原理及方法276

10.4.3魯棒抗去除可見

對抗水印原理及

方法278

10.4.4基於可恢復對抗樣

本的隱私保護原理

及方法282

10.5本章小結287

參考文獻287

第11章隱私保護289

11.1隱私保護概述289

11.1.1隱私保護問題290

11.1.2隱私保護的挑戰…290

11.2隱私保護技術291

11.2.1數據匿名291

11.2.2差分隱私295

11.2.3安全多方計算297

11.3本章小結300

參考文獻300