數據處理與特征工程
呂陽 王鳳儀 李進
- 出版商: 化學工業
- 出版日期: 2026-01-01
- 售價: $414
- 語言: 簡體中文
- 頁數: 154
- ISBN: 7122488349
- ISBN-13: 9787122488343
-
相關分類:
Large language model
尚未上市,歡迎預購
相關主題
商品描述
《數據處理與特征工程》是一部系統闡述人工智能大模型核心技術的著作,聚焦於數據管理和特征工程在大模型構建與優化中的關鍵作用。本書全面覆蓋從數據采集到模型優化的全流程,結合理論、技術實踐與行業應用,剖析如何通過數據驅動賦能人工智能大模型,為構建高效的智能系統提供系統性解決方案。本書首先詳述數據采集與清洗技術,包括多源數據集成及常見問題處理方法;接著解析數據轉換技術,涵蓋基礎方法和量子計算等前沿方向。特征工程部分全面介紹文本、圖像等多模態處理技術,並探討創新實踐,通過金融、醫療、工業等領域的應用案例,展示技術落地成效。最後展望隱私保護、自動化、量子計算等未來趨勢,為讀者提供前沿視野。 無論是對於人工智能領域的研究者、數據科學家,還是工程師,亦或是正在AI應用開發中尋找突破口的從業者,本書都將提供實用的知識、方法與啟示。通過本書,讀者將不僅能夠深入理解AI大模型中的數據處理與特征工程,還能學會如何在實際項目中運用這些技術,實現模型性能的最大化和應用場景的多樣化。
作者簡介
呂陽,北京工商大學教授,入選斯坦福大學2019-2024年度全球2%高被引學者及ESI同期高被引學者。作為IEEE高級會員,他深耕人工智能、量子金融系統、區塊鏈應用、圖分析信息學及數字法理學等領域,展現了卓越的學術影響力。同時,他還擔任Financial Innovation等知名期刊的特約編輯,專註於工業4.0、區塊鏈、人工智能、物聯網安全及企業數字化轉型等前沿研究。
目錄大綱
第1章 數據的重要性
1.1 數據在AI大模型中的核心作用
1.1.1 大模型的數據驅動特性
1.1.2 數據與模型精度的關系
1.2 數據質量對模型性能的影響
1.2.1 數據噪聲與模型偏差
1.2.2 數據完整性與一致性
1.3 大數據時代的數據挑戰
1.3.1 數據存儲與管理
1.3.2 數據隱私與安全
1.4 新興技術在數據處理中的應用
1.4.1 雲計算與分布式存儲
1.4.2 邊緣計算與實時數據處理
1.4.3 人工智能和機器學習在數據處理中的應用
第2章 數據采集與清洗
2.1 數據采集的方法
2.1.1 網絡爬蟲與數據抓取
2.1.2 數據庫與數據集的利用
2.1.3 傳感器與實時數據采集
2.2 數據清洗的技術
2.2.1 缺失值處理
2.2.2 噪聲與異常值檢測
2.2.3 數據一致性與重覆值處理
第3章 數據探索與可視化
3.1 數據探索的目的與方法
3.1.1 探索性數據分析(EDA)
3.1.2 數據探索工具和技術
3.2 數據可視化技術
3.2.1 基本圖表與統計圖表
3.2.2 高級可視化技術
3.3 數據特征和模式的發現
3.3.1 數據分布與統計特征
3.3.2 相關性分析
3.4 新興可視化技術
3.4.1 增強現實(AR)與虛擬現實(VR)可視化
3.4.2 動態與實時數據可視化
第4章 特征選擇
4.1 特征選擇的重要性
4.1.1 特征選擇對模型性能的影響
4.1.2 過擬合與特征選擇
4.2 常用特征選擇方法
4.2.1 過濾法
4.2.2 包裝法
4.2.3 嵌入法
4.3 特征選擇後的評估指標
4.3.1 特征重要性評分
4.3.2 交叉驗證
4.4 新興特征選擇方法
4.4.1 基於強化學習的特征選擇
4.4.2 自適應特征選擇技術
第5章 特征提取
5.1 特征提取的概念與意義
5.1.1 特征提取在數據處理中的角色
5.1.2 特征提取的基本流程
5.2 從原始數據中提取特征的方法
5.2.1 數值數據的特征提取
5.2.2 類別數據的特征提取
5.3 自動化特征提取工具與技術
5.3.1 自動編碼器
5.3.2 深度學習中的特征提取
5.4 新興特征提取技術
5.4.1 基於生成對抗網絡(GAN)的特征提取
5.4.2 遷移學習中的特征提取
第6章 特征構造
6.1 特征構造的重要性
6.1.1 特征構造對模型的影響
6.1.2 領域知識在特征構造中的應用
6.2 常用特征構造方法
6.2.1 數學變換與組合
6.2.2 領域知識與特征交互
6.3 特征構造的實踐案例
6.4 新興特征構造技術
6.4.1 基於圖神經網絡(GNN)的特征構造
6.4.2 多模態數據的特征構造
第7章 數據轉換
7.1 數據標準化與歸一化
7.1.1 標準化方法
7.1.2 歸一化技術
7.2 數據變換技術
7.2.1 對數變換與冪變換
7.2.2 離散化與二值化
7.3 新興數據轉換技術
7.3.1 基於量子計算的數據變換
7.3.2 自適應數據變換方法
第8章 降維技術
8.1 降維的意義
8.1.1 降維對計算覆雜度的影響
8.1.2 降維與數據可視化
8.2 主成分分析(PCA)
8.2.1 PCA的基本原理
8.2.2 PCA在實際中的應用
8.3 t-SNE
8.3.1 t-SNE的基本原理
8.3.2 t-SNE在高維數據中的應用
8.4 其他降維方法
8.4.1 線性判別分析(LDA)
8.4.2 非負矩陣分解(NMF)
8.5 新興降維技術
8.5.1 基於深度學習的降維方法
8.5.2 非線性降維技術
第9章 文本特征工程
9.1 自然語言處理中的特征工程
9.1.1 NLP中特征工程的重要性
9.1.2 NLP中的常用特征
9.2 文本預處理
9.2.1 分詞與詞形還原
9.2.2 停用詞與詞頻
9.3 文本特征提取方法
9.3.1 詞袋模型(BoW)
9.3.2 TF-IDF
9.3.3 詞向量與詞嵌入表示
9.4 新興文本特征提取技術
9.4.1 基於BERT的特征提取
9.4.2 多語言嵌入技術
第10章 圖像和音頻特征工程
10.1 圖像數據的特征提取
10.1.1 基本圖像處理技術
10.1.2 深度學習中的圖像特征提取
10.2 音頻數據的特征提取
10.2.1 時域與頻域特征
10.2.2 聲譜圖與MFCC
10.3 新興圖像與音頻特征提取技術
10.3.1 基於卷積神經網絡(CNN)的特征提取
10.3.2 基於Transformer的特征提取
第11章 時間序列分析
11.1 時間序列數據的特點
11.1.1 時間序列數據的獨特性
11.1.2 時間序列數據的預處理
11.2 時間序列特征提取
11.2.1 基本統計特征
11.2.2 滑動窗口與時間延遲嵌入
11.3 時間序列預測模型
11.4 新興時間序列分析技術
11.4.1 基於註意力機制的時間序列分析
11.4.2 變分自編碼器(VAE)在時間序列中的應用
第12章 模型與特征的交互
12.1 模型選擇對特征工程的影響
12.1.1
