大模型數據:原理、技術與實戰

何聰輝 吳酈軍 張文濤

  • 出版商: 電子工業
  • 出版日期: 2026-04-01
  • 售價: $474
  • 語言: 簡體中文
  • 頁數: 192
  • ISBN: 7121523744
  • ISBN-13: 9787121523748
  • 相關分類: Data-visualization
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

本書系統構建了大模型 數據科學的理論框架與工程 實踐體系,在編寫時特別註 重技術深度與落地應用的結 合。本書主體詳細介紹了大 模型數據的全生命周期管理 ,涵蓋數據采集與獲取、精 細化清洗與結構化解析、專 業標註體系等基礎工程;深 入剖析了數據合成與增強( 包括通用、代碼、全模態合 成)、多維度數據質量評估 等核心技術;探討了數據合 規監管、版權保護及安全隱 私等前沿議題。另外,書中 包含了一個基於PDF數據的 垂類模型能力提升實戰案例 ,幫助讀者打通從數據處理 到模型應用的完整鏈路。本 書適合人工智能領域的初學 者、科研工作者、算法工程 師及數據科學家閱讀。

作者簡介

何聰輝,清華大學博士,上海人工智能實驗室青年科學家、大模型數據負責人,商湯科技高級研究總監,入選第五屆上海科技青年35人引領計劃。深耕高性能計算與AI數據基礎設施的交叉領域,致力於構建面向通用人工智能的數據基座。在計算機科學會議上發表論文200餘篇,谷歌學術引用超1萬次。曾獲戈登·貝爾獎、ACL 2025最佳主題論文獎等多項榮譽。主導研發的智能文檔解析引擎MinerU,發布一年獲GitHub 5萬星標,調用量超10億次,被華為、阿裏、騰訊等百家企業采用。建立的評測基準OmniDocBench被Google Gemini和OpenAI GPT官方采納。曾構建大模型開放數據平臺OpenDataLab,其生態服務全球30萬名開發者。

目錄大綱

第1章 大模型數據概覽
1.1 數據驅動的大模型演進簡史
1.1.1 大模型進化路線
1.1.2 數據的重要性變遷
1.2 大模型數據的生命周期
1.2.1 生命周期總覽
1.2.2 生命周期的三大階段
1.3 大模型數據的四大關鍵維度
1.3.1 知識廣度
1.3.2 智能精度
1.3.3 泛化能力
1.3.4 新知洞察
1.4 大模型數據生態系統簡述
1.4.1 開源數據集生態
1.4.2 工具與平臺鏈路
1.4.3 數據治理與倫理邊界
第2章 大模型訓練所需數據來源
2.1 典型的數據來源
2.1.1 大模型訓練所需核心數據的類型
2.1.2 網絡爬取與社交媒體收集
2.1.3 數據共享平臺與協作機制
2.1.4 數據來源挑戰與演變
2.2 典型的公開數據集
2.2.1 預訓練數據集:通用知識構建
2.2.2 微調數據集:任務與領域適配
2.2.3 對齊強化數據集:對齊與價值塑造
2.3 數據獲取方式
2.3.1 公共渠道采集
2.3.2 眾包采集
2.3.3 智能體式采集
2.3.4 模型與仿真生成
第3章 數據標註與清洗
3.1 從原始數據到高質量語料
3.2 數據清洗:剔除噪聲與冗餘
3.2.1 數據過濾
3.2.2 數據去重
3.3 數據解析:從原始信息中恢覆結構與語義
3.3.1 結構化、半結構化與非結構化數據解析
3.3.2 代表性OCR工具
3.4 數據標註:從任務建模到質量保障
3.4.1 數據標註方式與策略體系
3.4.2 數據標註任務分類與體系
3.4.3 數據標註質量保障機制
3.5 小試牛刀
3.5.1 數據解析
3.5.2 數據清洗
3.5.3 數據重寫與增強
第4章 數據合成與增強
4.1 數據合成與增強的整體框架
4.2 數據合成方法