業務驅動的推薦系統

傅聰

  • 出版商: 機械工業
  • 出版日期: 2023-02-16
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 頁數: 195
  • 裝訂: 平裝
  • ISBN: 7111720938
  • ISBN-13: 9787111720935
  • 相關分類: 推薦系統
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

相關主題

商品描述

這是一本從業務視角解讀推薦系統架構設計、評估方法、數據工程和算法原理的著作。
市面上推薦系統方面的著作,內容多以推薦技術、算法和模型為主,讓讀者誤以為掌握了推薦算法就能用好推薦系統並提升業務指標,
其實推薦算法只是工具,要真正發揮推薦系統的價值,需要將推薦系統植根於業務之上。
本書從業務視角出發,描繪了當下主流推薦系統的設計思想和架構全貌,重點突出系統每個模塊所需要解決的問題,
進而介紹一到兩種實踐檢驗普遍有效、在學術界具備里程碑性質的算法。
幫助讀者練成識別算法的火眼金睛,從每年大量產出的新算法研究中去粗取精,真正解決實際問題。

閱讀本書,你將有如下收穫:
l 從商業、運營、算法、工程視角理解推薦系統,對推薦系統的認知更加立體化;
l 從業務視角理解推薦系統的頂層設計,掌握業務驅動的推薦系統設計思想;
l 掌握業務驅動型推薦系統的評估方法,涵蓋B端、C端和平台等多個維度;
l 了解推薦系統的數據工程,掌握獲取各類數據、構建特徵體系的方法;
l 從業務視角理解召回、排序和決策智能方面的經典算法和學術界有里程碑意義的算法;
從技術和業務的雙重視角去規劃推薦算法工程師的成長路徑,以達到事半功倍的效果。

作者簡介

傅聰
博士,畢業於浙江大學計算機學院,美國南加州大學訪問學者,前阿里巴巴算法專家。
工業級高性能高維數據檢索算法NSG、SSG的發明人,致力於推薦系統、搜索引擎前沿技術的研究和應用。
曾作為團隊負責人,在千萬級DAU的電商及視頻業務場景下,成功實現了推薦系統、
搜索引擎、搜推融合等技術方向的項目落地,積累了豐富的實戰經驗。

學生時代師從國家優秀青年學者蔡登教授與國家傑出青年學者、前滴滴研究院院長何曉飛教授。
在人工智能、推薦系統、數據庫、數據挖掘、自然語言處理、神經網絡、知識圖譜等多個領域有豐富的研究成果。
在頂級會議或期刊TPAMI、KDD、VLDB、IJCAI、EMNLP、CIKM等發表過多篇論文,
並擔任TKDE、IJCAI、EMNLP、AAAI、Neuron Computing等國際會議審稿人。

目錄大綱

目 錄
前言
第一部分業務驅動下的推薦系統總覽
第1章從業務視角看推薦系統2
1.1 推薦系統的定義與商業價值2
1.1.1 推薦系統的基本概念與業務驅動思想3
1.1.2 淺談個性化推薦帶來的商業價值7
1.2 從運營、算法與工程視角看推薦系統7
1.2.1 推薦業務運營思維:貨找人8
1.2.2 推薦算法建模思維:人找貨10
1.2.3 推薦引擎工程展望:服務產品化11
第2章從業務視角看推薦系統的頂層設計12
2.1 業務驅動下的推薦系統設計思想12
2.1.1 業務無關的推薦系統抽象13
2.1.2 推薦算法模塊核心能力的建設15
2.2 從系統框架透視業務生態循環17
2.2.1 系統大圖剖析17
2.2.2 監察者:埋點日誌服務17
2.2.3 業務大腦:數據計算、分析及倉儲服務18
2.2.4 主循環系統:召回與排序模塊19
2.2.5 副循環系統:運營管控與作業模塊21
2.2.6 新陳代謝:運維與實驗平台22
2.3 迭代效率大化:圖化服務和配置化迭代25
第3章評估推薦系統的方式與維度27
3.1 業務驅動型推薦系統的評估要點27
3.1.1 體驗優先準則和量化方式28
3.1.2 評估推薦系統的方法論29
3.1.3 從3種業務價值出發設計評估體系31
3.2 B端業務:B端用戶體驗的評估維度31
3.2.1 平台玩法的可解釋性31
3.2.2 投放效果的可預測性32
3.2.3 投入產出比33
3.2.4 基尼指數34
3.3 C端業務:C端用戶體驗的評估維度34
3.3.1 興趣相關性35
3.3.2 內容質量35
3.3.3 結果多樣性35
3.3.4 推薦驚喜性36
3.4 平台成長:平台價值評估維度36
3.4.1 產品調性和品牌印象37
3.4.2 消費與轉化率37
3.4.3 高、中、低活用戶留存37
3.4.4 活躍用戶量38
3.5 評估方法概覽38
3.5.1 用戶調研39
3.5.2 離線評估39
3.5.3 在線評估42
3.6 AB實驗42
3.6.1 AB實驗中的流量切分設計43
3.6.2 AB實驗的通用流程44
3.6.3 實驗結果的顯著性校驗和關聯分析44
3.6.4 實驗報表與監控報警45
第二部分推薦系統的數據工程
第4章業務標籤體系48
4.1 業務標籤體系概述48
4.1.1 業務標籤體系的含義48
4.1.2 業務標籤體系的價值49
4.1.3 標籤體係為什麼要業務定制化49
4.2 業務標籤體系的設計思路50
4.2.1 業務標籤體系的概念設計50
4.2.2 業務標籤體系的系統設計52
4.3 業務標籤的挖掘方法53
4.3.1 提取式標籤挖掘54
4.3.2 生成式標籤挖掘55
4.3.3 基於主動學習的人機協同標註系統56
4.3.4 標籤改寫、糾錯與聚合56
4.3.5 標籤權重計算57
4.4 業務標籤體系的評估方法58
4.4.1 離線評估58
4.4.2 在線評估59
第5章用戶畫像:業務層面的人格抽象60
5.1 用戶畫像概述60
5.1.1 用戶畫像的含義60
5.1.2 用戶畫像的業務價值和算法價值61
5.2 用戶畫像設計61
5.2.1 用戶畫像概念體系設計61
5.2.2 用戶畫像數據系統設計64
5.3 用戶畫像的構建與迭代65
5.3.1 人工挖掘方法65
5.3.2 基於機器學習的挖掘方法66
5.3.3 用戶畫像的優化迭代68
5.3.4 用戶畫像權重計算70
5.4 用戶畫像的評估方法71
5.4.1 離線評估71
5.4.2 在線評估72
第6章生態循環的血液:數據獲取與處理73
6.1 埋點日誌服務與埋點體系的設計思想73
6.1.1 埋點日誌服務簡介74
6.1.2 業務驅動的埋點體系設計思想75
6.2 可擴展的業務埋點體系77
6.2.1 SPM埋點體系77
6.2.2 SCM埋點體系77
6.2.3 擴展埋點體系EXT78
6.2.4 會話級埋點設計與消費路徑跟踪78
6.3 基於埋點數據的處理和分析79
6.3.1 常見重要數據指標釋義79
6.3.2 漏斗效應和優化分析81
第7章業務定制化特徵和樣本工程設計83
7.1 推薦特徵體系概覽83
7.1.1 推薦特徵體系簡介84
7.1.2 特徵體系的設計思想85
7.2 推薦系統特徵設計及案例86
7.2.1 用戶描述性特徵86
7.2.2 用戶特徵的人群泛化87
7.2.3 內容描述性特徵87
7.2.4 內容統計類特徵88
7.2.5 內容統計類特徵泛化88
7.2.6 用戶與內容的交叉特徵設計89
7.2.7 用戶歷史行為序列特徵設計91
7.2.8 實時特徵的定義和價值92
7.2.9 實時統計特徵設計和數據流程92
7.2.10 基於機器學習的特徵構造94
7.3 特徵應用常見問題95
7.3.1 多值特徵處理95
7.3.2 在線、離線特徵的一致性96
7.4 特徵去噪96
7.4.1 威爾遜置信區間方法96
7.4.2 對數平滑方法97
7.4.3 百分位點離散化方法97
7.5 特徵樣本構造和模型訓練97
7.6 時間穿越及處理98
7.6.1 時間穿越的定義及影響98
7.6.2 樣本現場還原98
7.7 特徵與樣本消偏99
7.8 特徵評估方法100
第三部分推薦系統的算法原理與實踐
第8章業務驅動視角下的召回技術104
8.1 推薦系統召回技術概覽104
8.1.1 推薦系統召回技術的業務定位104
8.1.2 業務驅動下的召回技術建模思維106
8.2 召回中的策略框架108
8.2.1 圈池策略108
8.2.2 召回多樣性策略108
8.2.3 基於業務策略的召回109
8.2.4 召回模塊框架109
8.3 U2I召回算法111
8.3.1 UserCF算法111
8.3.2 矩陣補全算法113
8.3.3 向Neural CF邁進:
Deep Match框架114
8.4 I2I召回算法117
8.4.1 I2I召回的業務價值及特點117
8.4.2 Trigger Selection方法118
8.4.3 ItemCF算法118
8.4.4 Item2Vec算法118
8.5 基於圖結構的召回算法119
8.5.1 圖召回的前世今生和
業務價值119
8.5.2 Swing I2I召回算法120
8.5.3 GraphSage算法122
 8.6 向量召回的另一面:近似檢索
算法127
8.6.1 ENN向量檢索與
ANN向量檢索128
8.6.2 ANN向量檢索算法的
分類及特點130
8.6.3 HC檢索算法131
8.6.4 IVF-PQ檢索算法與Faiss133
8.6.5 SSG檢索算法138
8.7 召回中的採樣技術140
第9章業務驅動視角下的排序技術142
9.1 排序模塊概覽142
9.1.1 排序模塊的業務價值142
9.1.2 業務驅動下的排序模塊組件143
9.2 粗排模塊144
9.2.1 粗排模塊的業務價值和技術思考變遷144
9.2.2 粗排算法選型原則145
9.2.3 GBDT算法145
9.2.4 GBDT+LR複合排序149
9.2.5 雙塔深度網絡150
9.2.6 從精排模型蒸餾出粗排模型151
9.3 精排模型152
9.3.1 精排模型的特點與業務價值152
9.3.2 從LR到FM:從半人工走向全自動153
9.3.3 端到端暴力美學:精排CIN模塊155
9.3.4 序列特徵建模157
9.3.5 稠密特徵處理158
9.3.6 歸納偏執處理159
9.3.7 特徵融合160
9.3.8 廣義LR排序範式160
9.4 多準則排序161
9.4.1 多準則排序簡介及業務意義161
9.4.2 MMoE建模多準則任務161
9.4.3 多目標的融合163
9.4.4 從Point-wise到List-wise:強化學習重排序165
9.4.5 解決數據匱乏問題:生成式強化學習重排167
第10章算法輔助人工:決策智能168
10.1 決策智能概述168
10.1.1 決策智能的含義168
10.1.2 推薦業務中的決策智能169
10.2 決策智能與推薦探索利用機制169
10.2.1 冷啟動中的決策智能169
10.2.2 場景冷啟動中的人工部分170
10.2.3 新用戶冷啟動中的人工部分172
10.2.4 冷啟動決策中的遷移學習173
10.2.5 新內容冷啟動算法175
10.3 因果推斷技術178
10.3.1 決策智能與因果推斷178
10.3.2 智能營銷與上推建模179
10.4 流量調控181
10.4.1 流量調控的業務價值與應用場景181
10.4.2 異質內容混排及強化學習應用181
10.4.3 履約保量的流量調控及算法184
第四部分推薦算法工程師的自我成長
第11章推薦算法工程師的成長路徑188
11.1 技術:推薦算法工程師的立身之本188
11.1.1 推薦算法工程師的知識體系188
11.1.2 推薦算法工程師的技術成長路徑189
11.2 業務:推薦算法工程師的立業之道190
11.2.1 推薦算法工程師的業務成長路徑191
11.2.2 推薦算法業務目標優化迭代的節奏192
11.3 推薦算法工程師的自我修養193
11.3.1 推薦算法工程師的工作日常193
11.3.2 優秀的推薦算法工程師的特徵194
11.3.3 在自證價值和技術沉澱中尋求平衡195