IKCEST國際大數據競賽賽題解析

李軒涯 計湘婷 主編

  • 出版商: 清華大學
  • 出版日期: 2024-08-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • ISBN: 7302668477
  • ISBN-13: 9787302668473
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • IKCEST國際大數據競賽賽題解析-preview-1
  • IKCEST國際大數據競賽賽題解析-preview-2
  • IKCEST國際大數據競賽賽題解析-preview-3
IKCEST國際大數據競賽賽題解析-preview-1

相關主題

商品描述

"全書圍繞IKCEST國際大數據競賽,即IKCEST“一帶一路”國際大數據競賽暨百度&西安交大大數據競賽展開,針對每次比賽內容進行深度解析,從任務、基礎到冠軍模型,以理論和代碼相結合的方式,全流程深度剖析比賽過程。九次競賽題均關註當年的熱點領域和方向,分別是“人物關系”知識挖掘、提取子句中的核心實體、寵物分類、商家招牌分類、基於衛星遙感影像和用戶行為的城市區域功能分類、高致病性傳染病的傳播趨勢預測和基於車載影像的實時環境感知、“一帶一路”重點語種法俄泰阿與中文互譯、社交網絡中多模態虛假信息甄別,涵蓋了社交網絡、電腦視覺、自然語言處理等大數據應用的熱門領域。 本書可作為全國高等學校大數據及相關專業的教材,也可作為感興趣的讀者瞭解IKCEST國際大數據競賽的參考書。 "

目錄大綱

 

目錄

 

 

第1章2015賽題——“人物關系”

知識挖掘

1.1賽題解析

 

1.1.1賽題介紹

 

1.1.2數據介紹

 

1.1.3評估指標

 

1.1.4賽題分析

 

1.2“人物關系”知識挖掘基礎介紹

 

1.2.1基於模板的方法

 

1.2.2基於統計的方法

 

1.2.3基於神經網絡的方法

 

1.3數據處理

 

1.3.1數據分析

 

1.3.2樣本不均衡數據處理

 

1.3.3數據加載

 

1.4“人物關系”知識挖掘方法探索

 

1.4.1基於LSTM的關系

抽取

 

1.4.2基於Transformer的

關系抽取

 

1.4.3基於預訓練微調的

關系抽取

 

1.4.4效果對比

 

1.5模型提升與改進

 

1.5.1如何利用無標註數據

 

1.5.2如何利用實體

屬性數據

 

1.5.3總結

 

第2章2016賽題——提取子句中的

核心實體

2.1賽題解析

 

2.1.1賽題介紹

 

2.1.2數據介紹

 

2.1.3評估指標

 

2.1.4賽題分析

 

2.2實體識別基礎介紹

 

2.2.1命名實體識別任務

 

2.2.2詞向量模型

 

2.2.3基礎方法

 

2.3數據處理

 

2.3.1數據分析

 

2.3.2文本序列預處理

 

2.4核心實體識別

 

2.4.1核心實體識別模型

 

2.4.2損失函數

 

2.4.3維特比算法

 

2.4.4核心實體識別實驗

 

2.4.5識別結果分析

 

2.5模型提升與改進

 

2.5.1K折交叉驗證

 

2.5.2對抗訓練

 

2.5.3總結

 

第3章2017賽題——寵物分類

 

3.1賽題解析

 

3.1.1賽題介紹

 

3.1.2數據介紹

 

3.1.3評估指標

 

3.1.4賽題分析

 

3.2電腦視覺基礎介紹

 

3.2.1電腦視覺任務

 

3.2.2電腦視覺基礎 

 

3.2.3傳統圖像分類及實踐

 

3.2.4神經網絡圖像分類及

實踐

 

3.3數據處理

 

3.3.1數據預處理

 

3.3.2數據增強

 

3.4圖像分類網絡及方法

 

3.4.1經典分類網絡

 

3.4.2VGG網絡Paddle

實現

 

3.5算法提升與改進

 

3.5.1進階的分類模型

 

3.5.2目標檢測

 

第4章2018賽題——商家招牌

分類

4.1賽題解析

 

4.1.1賽題介紹

 

4.1.2數據介紹

 

4.1.3評估指標

 

4.1.4賽題分析

 

4.2目標檢測基礎介紹

 

4.2.1目標檢測概述

 

4.2.2模型調研

 

4.2.3經典二階段目標

檢測算法

 

4.2.4經典一階段目標

檢測算法

 

4.3數據處理

 

4.3.1數據預處理

 

4.3.2數據加載

 

4.3.3數據增強

 

4.4算法提升與改進

 

4.4.1比賽模型

 

4.4.2結果分析與改進

 

第5章2019賽題——基於衛星遙感影

像和用戶行為的城市區域

功能分類

5.1賽題解析

 

5.1.1賽題介紹

 

5.1.2數據介紹

 

5.1.3評估指標

 

5.1.4賽題分析

 

5.2多模態分類基礎介紹

 

5.2.1算法架構

 

5.2.2模型融合

 

5.3多模態數據探索

 

5.3.1文本和圖像數據的

讀取

 

5.3.2數據分析

 

5.3.3特徵工程

 

5.4城市區域功能分類

 

5.4.1遙感影像分類

 

5.4.2用戶到訪數據分類

 

5.5城市區域功能分類特徵優化

 

5.5.1區域→用戶→區域的

特徵構建

 

5.5.2區域→區域的

特徵構建

 

5.6模型提升與改進

 

第6章2020賽題——高致病性傳染病的

傳播趨勢預測

6.1賽題解析

 

6.1.1賽題介紹

 

6.1.2數據介紹

 

6.1.3評估指標

 

6.1.4賽題分析

 

6.2時間序列建模基礎方法介紹

 

6.2.1時間序列模型簡介

 

6.2.2GBDT簡介

 

6.3數據及特徵工程

 

6.3.1特徵選擇

 

6.3.2特徵構建

 

6.3.3回歸值預處理

 

6.4城市每日新增感染人數

預測算法

 

6.4.1特定數值填充

 

6.4.2時間序列模型

 

6.4.3SEIR模型

 

6.5區域每日新增感染人數

占比預測算法

 

6.5.1回歸數據生成

 

6.5.2區域新增感染人數

占比預測

 

6.5.3實驗結果分析

 

6.6模型提升與改進

 

第7章2021賽題——基於車載影像的

實時環境感知

7.1賽題解析

 

7.1.1賽題介紹

 

7.1.2數據介紹

 

7.1.3評估指標

 

7.1.4賽題分析

 

7.2目標檢測與圖像分割

基礎介紹

 

7.2.1目標檢測概述

 

7.2.2圖像分割概述

 

7.2.3常用語義分割算法

UNet與DeepLabV3

 

7.2.4UNet代碼實踐解析

 

7.3交通目標檢測任務

 

7.3.1目標檢測任務解析與

數據探索

 

7.3.2數據預處理

 

7.3.3目標檢測基準模型: 

Yolov5

 

7.3.4算法模型與改進

 

7.4交通劃線語義分割任務

 

7.4.1語義分割任務解析與

數據探索

 

7.4.2數據預處理

 

7.4.3語義分割基準

模型HRNet

 

7.4.4算法模型與改進

 

7.5算法結果分析與改進策略

 

7.5.1算法改進策略及評估

指標提升

 

7.5.2算法推理加速策略

 

7.5.3總結

 

第8章2022賽題——“一帶一路”重點

語種法俄泰阿與中文互譯

8.1賽題解析

 

8.1.1賽題介紹

 

8.1.2數據介紹

 

8.1.3評估指標

 

8.1.4賽題分析

 

8.2機器翻譯基礎介紹

 

8.2.1機器翻譯概述

 

8.2.2經典機器翻譯模型

 

8.2.3經典機器翻譯預

訓練模型

 

8.3比賽方法——基於領域漸進性的

可持續多語言翻譯訓練方案

 

8.3.1數據收集與預處理

 

8.3.2雙語平行語料構建

 

8.3.3多語翻譯模型

選擇與改進

 

8.3.4領域漸進可持續

訓練方法

 

8.4算法結果分析與高金策略

 

8.4.1結果分析

 

8.4.2高金策略——多模型

集成方法

 

8.4.3總結

 

第9章2023賽題——社交網絡中多

模態虛假信息甄別

9.1賽題解析

 

9.1.1賽題介紹

 

9.1.2數據介紹

 

9.1.3評估指標

 

9.1.4賽題分析

 

9.2模型基礎介紹

 

9.2.1虛假信息甄別

任務概述

 

9.2.2大語言模型概述

 

9.2.3多模態大模型概述

 

9.2.4ViT與ERNIE

 

9.2.5ERNIE代碼實踐解析

 

9.3比賽方法

 

9.3.1任務解析

 

9.3.2數據處理

 

9.3.3模型方法

 

9.3.4成果提交與推理

 

9.3.5實驗結果

 

9.4模型改進與總結

 

9.4.1模型改進

 

9.4.2總結

 

參考文獻