Python 金融大數據風控建模實戰：基於機器學習

王青天孔越編著

出版商: 機械工業
出版日期: 2020-06-01
售價: $714
語言: 簡體中文
頁數: 376
裝訂: 平裝
ISBN: 7111655796
ISBN-13: 9787111655794
相關分類: 大數據 Big-data、Machine Learning

已絕版

買這商品的人也買了...

~~$650~~ $507

Continuous Delivery 中文版：利用自動化的建置、測試與部署完美創造出可信賴的軟體發佈 (Continuous Delivery: Reliable Software Releases through Build, Test, and Deployment Automation)
$856

深度學習
$402

深入淺出強化學習 : 原理入門
$300

Kibana 數據可視化 (Learning Kibana 5.0)
$402

Python 統計分析 (An Introduction to Statistics with Python: With Applications in the Life Sciences)
$207

機器學習：算法背後的理論與優化
$601

統計學習方法, 2/e
$458

Python 金融大數據挖掘與分析全流程詳解
$796

強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e)
$453

智能風控：原理算法與工程實踐
$453

精通 Kubernetes (Mastering Kubernetes)
$768

AWS 高級網絡官方學習指南 (專項領域) (AWS Certified Advanced Networking Official Study Guide: Specialty Exam)
$504

Python數據整理
$251

圖解數學思維訓練課：建立孩子的數學模型思維（數字與圖形·加法與減法應用訓練課）
~~$690~~ $538

NLP 工程師養成術：自然語言處理入門
$453

智能風控：Python 金融風險管理與評分卡建模
$474

分析模式：可復用的對象模型
~~$500~~ $390

和艦長一起 30 天玩轉 GitLab（iT邦幫忙鐵人賽系列書）
~~$690~~ $345

金融人才 × 機器學習聯手出擊：專為 FinTech 領域打造的機器學習指南 (Machine Learning for Finance)
~~$1,000~~ $790

駭客廝殺不講武德：CTF 強者攻防大戰直擊
$453

程序員的數學基礎課 : 從理論到 Python 實踐
$453

智能風控與反欺詐：體系、算法與實踐
$453

Go語言區塊鏈應用開發從入門到精通
~~$620~~ $527

深度學習的 16 堂課：CNN + RNN + GAN + DQN + DRL, 看得懂、學得會、做得出！ (Deep Learning Illustrated: A Visual, Interactive Guide to Artificial Intelligence)
~~$780~~ $616

Python 金融市場賺大錢聖經：寫出你的專屬指標

商品描述

本書的定位是一本Python金融大數據風控建模的入門級讀物。
全書包括4篇：背景篇旨在由淺入深地讀者走進金融科技領域，瞭解智能風控，系統、全面地認識評分卡；
基礎篇圍繞評分卡構建的全流程，向讀者一一講述每個環節的理論知識，隨之進行代碼實踐，
幫助讀者獲得從0至1構建評分卡模型的工程能力；進階篇旨在從建模中可能遇到問題出發，
提供一些問題解決或模型提升的思路，使建立的評分卡具有更好的業務適應及預測能力；
實戰篇結合真實信貸場景的數據集，帶領讀者完成從數據分析至評分卡生成的各個流程，
旨在讓讀者體驗真實場景，具備評分卡實戰能力，亦可作為讀者實際工作中構建評分卡的參考。
本書適合有一定Python語言基礎的金融風控相關技術人員閱讀，
也適合想要瞭解人工智能如何在金融場景應用的開發及業務人員。
另外，也適合專業培訓機構的學員和相關專業的學生。

目錄大綱

前言
第1篇智能風控背景
第1章金融科技介紹2
1.1 金融科技的前世今生2
1.2 金融科技正深刻地改變和塑造著金融業態4
1.3 新興科技不斷強化金融科技的應用能力5
1.4 金融風險控制面臨著的挑戰7
1.5 智能風控和評分卡8
1.6 評分卡模型的開發流程11

第2章機器學習介紹17
2.1 機器學習的概念17
2.2 機器學習的分類17
2.2.1 有監督學習18
2.2.2 無監督學習18
2.2.3 強化學習19
2.3 機器學習與人工智能的關係20
2.4 機器學習與數學的關係20
2.5 機器學習與深度學習22

第3章評分卡模型介紹25
3.1 申請評分卡25
3.1.1 數據獲取26
3.1.2 好壞樣本定義26
3.1.3 觀察期與表現期確定29
3.1.4 樣本分層32
3.1.5 數據清洗與預處理33
3.1.6 特徵工程33
3.1.7 模型訓練與優化35
3.2 行為評分卡36
3.2.1 數據獲取37
3.2.2 時間窗口37
3.2.3 特徵工程38
3.3 催收評分卡40
3.3.1 催收評分卡分類40
3.3.2 催收策略41
3.4 反欺詐模型42
3.4.1 欺詐風險與信用風險比較42
3.4.2 欺詐模型好壞樣本定義43
3.4.3 欺詐主體分析44
3.4.4 反欺詐方法介紹44

第2篇評分卡理論與實戰基礎
第4章數據清洗與預處理48
4.1 數據集成49
4.2 數據清洗50
4.3 探索性數據分析52
4.4 Python代碼實踐54
4.4.1 數據集成54
4.4.2 數據清洗58
4.4.3 探索性數據分析61

第5章變量編碼方法66
5.1 無監督編碼66
5.1.1 One-hot編碼66
5.1.2 Dummy variable編碼68
5.1.3 Label編碼69
5.2 有監督編碼70
5.2.1 WOE編碼70
5.2.2 WOE編碼與One-hot編碼比較73
5.3 Python代碼實踐75
5.3.1 One-hot編碼76
5.3.2 Dummy variable編碼80
5.3.3 Label編碼82
5.3.4 WOE編碼85

第6章變量分箱方法89
6.1 變量分箱流程91
6.2 優Chi-merge卡方分箱方法92
6.3 Best-KS分箱方法94
6.4 優IV分箱方法95
6.5 基於樹的優分箱方法95
6.6 Python代碼實踐98
6.6.1 優Chi-merge分箱98
6.6.2 優IV分箱106
6.6.3 基於樹的分箱107

第7章變量選擇109
7.1 過濾法變量選擇109
7.2 包裝法變量選擇112
7.3 嵌入法變量選擇113
7.4 Python代碼實踐115
7.4.1 過濾法變量選擇115
7.4.2 包裝法變量選擇118
7.4.3 嵌入法變量選擇120

第8章 Logistic回歸模型123
8.1 Logistic回歸模型原理123
8.2 過擬合與欠擬合128
8.3 Python代碼實踐130

第9章模型的評估指標136
9.1 正負樣本的選擇137
9.2 標準評估指標139
9.3 概率密度評估指標141
9.4 概率分佈評估指標144
9.5 Python代碼實踐153

10章評分卡分數轉化157
10.1 由概率到分數的轉換157
10.2 變量的分值計算159
10.3 評分卡性能評估161
10.4 Python代碼實踐163

11章模型在線監控169
11.1 穩定性監控169
11.2 單調性監控172
11.3 性能監控指標173
11.4 Python代碼實踐174

第3篇評分卡理論與實戰進階
12章樣本不均衡處理180
12.1 數據層下採樣樣本不均衡的處理方法181
12.1.1 隨機下採樣方法181
12.1.2 樣本鄰域選擇的下採樣方法182
12.1.3 樣本鄰域清理的下採樣方法184
12.1.4 Bagging集成的下採樣方法185
12.1.5 Boosting集成的下採樣方法187
12.2 數據層上採樣樣本不均衡的處理方法188
12.2.1 隨機上採樣方法188
12.2.2 SMOTE樣本生成方法189
12.2.3 Borderline-SMOTE樣本生成方法190
12.3 算法層樣本不均衡的處理方法190
12.4 模型評估層樣本不均衡的處理方法191
12.5 Python代碼實踐191
12.5.1 數據層下採樣樣本不均衡處理代碼實現192
12.5.2 數據層上採樣樣本不均衡處理代碼實現201

13章特徵工程進階206
13.1 數據層特徵工程206
13.2 算法層特徵工程211
13.2.1 基於樹模型的特徵生成211
13.2.2 FM特徵交叉215
13.3 Python代碼實踐219
13.3.1 數據層特徵工程代碼實現219
13.3.2 算法層特徵工程代碼實現222

14章決策樹模型229
14.1 決策樹模型的原理229
14.2 決策樹學習229
14.3 決策樹與過擬合234
14.4 Python代碼實踐236

15章神經網絡模型241
15.1 神經元模型241
15.2 神經網絡的網絡結構242
15.3 神經網絡的學習策略247
15.4 Python代碼實踐253

16章支持向量機模型257
16.1 感知器模型257
16.1.1 感知器模型的原理257
16.1.2 感知器與支持向量機模型260
16.2 線性可分支持向量機261
16.3 線性支持向量機267
16.4 非線性支持向量機272
16.5 感知器相關模型比較278
16.6 Python代碼實踐280
16.6.1 線性支持向量機模型代碼實現280
16.6.2 非線性支持向量機模型代碼實現282

17章集成學習286
17.1 Bagging與Boosting對比286
17.2 Random Forest模型原理288
17.3 Adaboost模型原理289
17.4 GBDT模型原理292
17.5 Xgboost模型原理297
17.6 Python代碼實踐304
17.6.1 Random Forest模型304
17.6.2 Adaboost模型308
17.6.3 GBDT模型310
17.6.4 Xgboost模型313

18章模型融合317
18.1 Blending方法原理317
18.2 Stacking方法原理320
18.3 Python代碼實踐322
18.3.1 Blending模型融合代碼實現322
18.3.2 Stacking模型融合代碼實現325

第4篇 Lending Club數據集實戰
19章完整的模型開發實現330
19.1 數據源介紹330
19.2 數據的獲取與預處理331
19.2.1 數據準備331
19.2.2 好壞樣本定義334
19.2.3 數據清洗與預處理335
19.3 特徵工程341
19.3.1 簡單的特徵工程341
19.3.2 變量分箱與編碼342
19.3.3 變量選擇348
19.4 模型構建與評估351
19.4.1 模型構建與優化351
19.4.2 模型評估352
19.5 評分卡生成353
附錄A 主要符號表357
附錄B 開發環境簡介358
參考文獻362