相關主題
商品描述
作為人工智能和機器學習的應用方向之一, 系統不僅在學術界積累了眾多文獻著作,在互聯網業界也有著廣泛的落地實踐,已服務過數億用戶,其算法和系統設計相當覆雜。本書結合互聯網大規模應用場景的實踐需求,回顧了推薦系統的發展歷史,解析了核心算法、系統架構、評估方法等諸多 系統涉及的方向,具備很強的實用性。內容包括 系統介紹、 系統原理、 系統經典鏈路、 系統進階、 系統內容審核與冷啟動、 系統架構、 系統評估。本書適合有機器學習基礎的學生、算法工程師,以及互聯網行業從業人員閱讀,也適合想了解 系統的跨行業人員閱讀。
作者簡介
蔡壯 畢業於天津大學。2019年加入字節跳動,先後在 頭條、西瓜視頻、番茄小說、TikTok等業務的 團隊工作,現負責TikTok直播 生態與新業務方向。<br /><br />陳敬伍 碩士畢業於 計算技術研究所。2019年加入字節跳動,先後在 頭條、西瓜視頻、番茄小說、抖音、Flow等業務線負責重要產品和模塊。現負責Flow AI產品(豆包/cici/星繪/抖音AI)與抖音雙列的 業務。<br /><br />笪慶 碩士畢業於南京大學機器學習與數據挖掘研究所(LAMDA),曾多次獲得 外數據挖掘/人工智能類競賽 ,發表和出版了多篇領域頂會論文與書籍。曾任阿裏巴巴 算法專家,主要從事搜索算法相關工作,後加入字節跳動負責內容電商推薦業務,目前負責Tiktok電商搜索算法和Tiktok電商歐洲區整體算法工作。<br /><br />李龍一佳 畢業於北京理工大學。2018年加入字節跳動,負責AML團隊,推動大規模深度學習的訓練調度框架發展,支持全產品線的 廣告搜索相關業務。<br /><br />李丕勳 畢業於浙江大學軟件工程專業,曾在百度擔任算法工程師,從事搜索排序和知識問答研究方向。2018年加入字節跳動,先後在 、 頭條 團隊工作,目前負責 頭條 算法業務。<br /><br />李亦錟 畢業於中國科學技術大學。2016年加入字節跳動,先後在AI-Lab、抖音 算法團隊擔任算法工程師,目前負責抖音投稿和音樂 算法。<br /><br />劉峰 新加坡南洋理工大學博士,曾在百度參與搜索、地圖和Feed流 業務,兩次獲得百度 獎。2020年加入字節跳動,先後在 頭條和TikTok電商推薦團隊工作,目前負責TikTok內容電商混排方向。<br /><br />劉小可 倫敦大學學院統計學博士,抖音 數據科學團隊負責人。<br /><br />閔啟陽 畢業於南京大學,曾在百度擔任算法工程師,從事 PaddlePaddle 深度學習框架的開發。2019年加入字節跳動,先後在AML、Seed團隊工作,主要負責 算法、圖學習算法的疊代,目前在豆包基座模型團隊。<br /><br />彭成倫 畢業於東南大學模式學習與挖掘實驗室,曾在AI領域頂會與期刊發表論文,並在美團擔任算法工程師。2021年加入字節跳動,先後從事電商算法優化與抖音新一代 架構的重構,現負責抖音電商視頻的模型鏈路優化。<br /><br />壽錫陽 2016年加入字節跳動,負責算法團隊項目管理工作。<br /><br />王叢超 碩士畢業於東南大學,曾在美團點評擔任算法工程師。2020年加入字節跳動,深度參與抖音社交業務 算法的優化工作。<br /><br />徐燁晟 畢業於北京理工大學,曾在百度擔任算法工程師。2020年加入字節跳動,先後在 頭條和番茄小說 團隊工作,目前負責番茄暢聽音樂業務。<br /><br />楊大威 畢業於北京航空航天大學,曾在百度擔任算法工程師,後入職字節跳動擔任算法工程師,目前負責 頭條內容理解、熱點資訊業務。<br /><br />楊順欣 畢業於哥倫比亞大學,曾任滴滴實驗中臺數據科學家。2022年加入字節跳動,先後在抖音、TikTok電商團隊擔任數據科學家,負責觀測性因果推斷、AB實驗方向研究與應用。<br /><br />楊武魁 畢業於清華大學。2021年加入字節跳動,先後在抖音內容電商、TT搜索增長工作,現負責TT搜索 詞業務。<br /><br />袁彬 畢業於北京郵電大學,曾在百度擔任算法工程師。2021年加入字節跳動,先後在番茄小說、TikTok等業務的 團隊工作,現負責TikTok直播基礎模型。<br /><br />趙致辰 畢業於清華大學,曾從事人臉解鎖、廣告創意、 算法的開發等工作。在 領域提出或參與的代表工作包括POSO、Trinity、streaming VQ等,著有《現代 算法》。2022年加入抖音字節跳動,目前負責召回、多樣性、多意圖等方向。<br /><br />周宇航 畢業於南京大學機器學習與數據挖掘研究所(LAMDA),在數據挖掘、人工智能領域的 會議和期刊發表多篇論文。先後在阿裏巴巴達摩院、AliExpress擔任算法工
目錄大綱
叢書序
推薦序
前言
第1章 推薦系統介紹001
1.1 推薦系統崛起002
1.2 現代化的推薦系統產品005
1.3 推薦系統的未來006
第2章 推薦系統原理009
2.1 推薦系統鏈路概覽010
2.1.1 監督學習010
2.1.2 推薦系統與監督學習的區別010
2.1.3 多階段推薦系統設計011
2.1.4 推薦系統的離/在線流程013
2.1.5 推薦系統的實時離/在線聯動015
2.1.6 端到端的推薦系統017
2.2 推薦方法018
2.2.1 模型結構與特征設計020
2.2.2 目標設計022
2.3 推薦效果評估025
2.3.1 離線評估025
2.3.2 在線評估028
第3章 推薦系統經典鏈路031
3.1 召回階段032
3.1.1 召回階段的作用及特殊性033
3.1.2 召回階段的建模方法035
3.1.3 召回建模的分類035
3.1.4 u2i召回035
3.1.5 i2i召回042
3.1.6 u2u2i召回044
3.1.7 召回的特定問題與解法045
3.2 粗排階段050
3.2.1 粗排階段的定位050
3.2.2 粗排階段的建模思路050
3.2.3 粗排模型的結構052
3.2.4 粗排效果的評估056
3.3 精排階段056
3.3.1 經典精排模型057
3.3.2 特征交叉增強061
3.3.3 序列建模063
3.4 重排階段070
3.4.1 重排階段的框架071
3.4.2 一階段式重排072
3.4.3 二階段式重排075
3.4.4 多體裁混排078
3.4.5 對重排範式的思考084
第4章 推薦系統進階088
4.1 推薦系統的多樣性089
4.1.1 問題設定090
4.1.2 相似度度量092
4.1.3 約束規則095
4.1.4 最大邊際相關096
4.1.5 行列式點過程098
4.1.6 相關拓展104
4.2 Listwise建模107
4.2.1 LTR方法107
4.2.2 評估式生成方法116
4.2.3 生成式建模方法124
4.3 多種用戶行為建模126
4.3.1 用戶行為126
4.3.2 常見的建模方法129
4.3.3 多目標融合140
4.4 消偏141
4.4.1 關於偏差的例子141
4.4.2 常見偏差和消偏方法142
4.5 圖模型153
4.5.1 圖模型介紹153
4.5.2 圖模型在推薦系統中的經典實踐156
4.5.3 圖模型的挑戰和未來169
4.6 探索與利用170
4.6.1 問題與算法171
4.6.2 業務應用179
4.6.3 E&E平臺183
4.7 動態權重/門控類模型185
4.7.1 動態權重/門控類模型介紹187
4.7.2 動態權重/門控類模型的建模方式188
4.7.3 動態權重/門控類模型的性能197
第5章 推薦系統內容審核與冷啟動202
5.1 內容審核203
5.1.1 審核系統的目標204
5.1.2 審核流程設計205
5.1.3 審核策略設計205
5.1.4 審核模型設計206
5.1.5 抄襲和洗稿識別209
5.1.6 謠言識別213
5.2 冷啟動215
5.2.1 冷啟動的問題和挑戰215
5.2.2 通用技術手段——元學習218
5.2.3 用戶冷啟動實踐224
5.2.4 物料冷啟動實踐229
第6章 推薦系統架構233
6.1 推薦系統整體架構234
6.2 數據流樣本拼接237
6.2.1 實時樣本拼接237
6.2.2 大數據架構結合推薦系統239
6.3 分布式訓練239
6.3.1 數據並行和模型並行240
6.3.2 參數服務器異步訓練架構243
6.4 推理優化246
6.4.1 什麼是推理優化246
6.4.2 推理優化實用技巧246
第7章 推薦系統評估250
7.1 A/B實驗簡介251
7.1.1 A/B實驗的基本假設251
7.1.2 A/B實驗的分流252
7.1.3 A/B實驗的基本流程254
7.1.4 假設檢驗255
7.2 A/B實驗的指標建設257
7.2.1 業務規模類指標的檢驗257
7.2.2 效率類指標的檢驗258
7.3 A/B實驗指標的靈敏度提升259
7.3.1 CUPED方法260
7.3.2 協變量調整261
7.3.3 極值截斷261
7.4 A/B實驗的註意事項262
參考文獻263
