內容理解:技術、演算法與實踐
孫子荀等
- 出版商: 機械工業
- 出版日期: 2023-10-01
- 售價: $594
- 貴賓價: 9.5 折 $564
- 語言: 簡體中文
- 頁數: 282
- 裝訂: 平裝
- ISBN: 7111735137
- ISBN-13: 9787111735137
-
相關分類:
Algorithms-data-structures
立即出貨
買這商品的人也買了...
-
$1,250$1,225 -
$356自己動手寫編譯器、鏈接器
-
$834$792 -
$580$493 -
$250算法詳解 捲2 圖算法和數據結構
-
$301Python 自然語言處理實戰 (Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications)
-
$594$564 -
$690$545 -
$750$593 -
$880$695 -
$600$396 -
$800$632 -
$560$280 -
$301$283 -
$458自然語言處理之 BERT 模型算法、架構和案例實戰
-
$594$564 -
$356算法詳解 捲3 貪心算法和動態規劃
-
$407算法詳解(捲4)——NP-Hard問題算法
-
$534$507 -
$556大規模語言模型:從理論到實踐
-
$534$507 -
$602因果推斷與機器學習 (修訂版)
-
$680$476 -
$521基於 GPT-3、ChatGPT、GPT-4 等 Transformer 架構的自然語言處理
-
$880$695
商品描述
這是一本在AI大模型技術背景下深入講解內容理解的技術原理、演算法實現與業務實踐的著作,
由騰訊的高級總監和資深內容專家領銜撰寫,全面融入了工業界在內容業務方面積累的先進技術和成熟經驗。
全書圍繞著內容理解、內容生成、內容品質3大關鍵領域展開,
從內容產業的發展趨勢與挑戰到各種技術和演算法,從產業的先進的研究成果到各種典型的應用案例,應有盡有。
第一部分內容理解(第1~7章)
首先,詳細介紹了內容理解的各個模組,包括文字、圖像、
語音等單模態內容的理解以及多場景文字、影片等多模態內容的理解,幫助讀者全面了解內容理解的核心概念、技術細節和研究進展。
接著,講解了多模態學習在內容理解中的應用、多模態內容理解的理論架構和大規模預訓練技術。
最後,介紹了兩個主流的內容理解框架,並結合一個自研的多模態內容理解框架,闡述了解決內容理解問題的流程和具體方案。
第二部分內容生成(第8~11章)
詳細講解了內容生成的技術細節,結合作者團隊在業務實踐中探索的應用案例,從圖片生成、文本生成、AI素材合成到AI創作,
介紹了內容創作的全端技術,能幫助讀者由淺入深地理解內容生成的技術原理與業務實務。
第三部分內容品質(第12~14章)
詳細解說了資訊流產品常見的內容品質問題,例如標題黨、假新聞、
低俗圖片等,介紹如何將這些與內容品質相關的業務場景進行拆解和定義,將抽象的業務場景轉化為可以建模的問題。
此外,也介紹了作者團隊採用的業務建模流程以及業界常用的解決方案和研究進展。
目錄大綱
Contents 目 錄
作者簡介
前 言
第一部分 內容理解
第1章 文本內容理解2
1.1 文本表示2
1.1.1 文本表示的研究背景2
1.1.2 文本表示的方法3
1.2 文本分類9
1.2.1 文本分類的研究背景9
1.2.2 文本分類的方法9
1.3 本章小結17
第2章 圖像理解19
2.1 影像分類20
2.1.1 傳統影像分類演算法20
2.1.2 深度學習影像分類演算法23
2.2 影像檢測25
2.2.1 影像匹配演算法26
2.2.2 基於OpenCV的模板匹配實作27
2.2.3 目標偵測演算法28
2.3 實際應用:通用元素檢測框架30
2.4 本章小結31
第3章 語音理解32
3.1 語音表徵32
3.1.1 基於傳統方法的語音表徵33
3.1.2 基於深度學習的語音表徵34
3.2 基於深度學習的音樂分類34
3.2.1 基於CNN的音樂分類35
3.2.2 基於RNN的音樂分類38
3.2.3 基於領域知識的CNN38
3.2.4 基於注意力機制的後端模組
演算法41
3.3 本章小結43
第4章 場景文字偵測與辨識44
4.1 場景文字的研究方向44
4.1.1 研究問題44
4.1.2 研究困難45
4.1.3 未來趨勢45
4.2 場景文本演算法的現況46
4.2.1 基於傳統機器學習的文本檢測46
4.2.2 基於傳統機器學習的文本辨識46
4.2.3 基於深度學習的文本檢測47
4.2.4 基於深度學習的文本辨識52
4.2.5 基於深度學習的端對端系統53
4.3 場景文字演算法輔助技術55
4.3.1 不規則文本辨識問題55
4.3.2 文字影像合成技術56
4.3.3 半監督技術57
4.4 資料集與評估標準58
4.4.1 基準資料集58
4.4.2 文本檢測評估標準60
4.4.3 文本辨識評估標準61
4.5 文本檢測與辨識的應用、現狀
與未來61
4.5.1 應用61
4.5.2 現狀62
4.5.3 挑戰與未來趨勢62
4.6 本章小結64
第5章 影片理解65
5.1 視訊表徵66
5.1.1 研究目標與意義66
5.1.2 研究進展67
5.2 影片動作辨識71
5.2.1 研究目標與意義71
5.2.2 研究困難71
5.2.3 研究進展71
5.3 影片時序動作定位74
5.3.1 研究目標與意義74
5.3.2 研究困難74
5.3.3 研究進展75
5.4 視訊結構化分析79
5.4.1 研究目標與意義80
5.4.2 研究難點80
5.4.3 基於視訊結構化的資料集80
5.4.4 視頻結構的劃分方法81
5.4.5 研究進展84
5.5 本章小結89
第6章 多模態學習與內容理解91
6.1 多模態內容理解的研究方向91
6.1.1 研究問題91
6.1.2 研究意義與挑戰92
6.1.3 研究方向與應用93
6.2 多模態表徵94
6.2.1 因果表徵94
6.2.2 聯合表徵98
6.3 多模態內容理解架構99
6.3.1 模態間推理99
6.3.2 模態間協同101
6.3.3 模態間推理:零樣本影像
分類103
6.3.4 模態間協同:假新聞識別105
6.4 大規模預訓練技術108
6.4.1 文本預訓練108
6.4.2 影像預訓練110
6.4.3 音頻預訓練111
6.4.4 多模態預訓練112
6.5 本章小結114
第7章 內容理解架構115
7.1 常見的內容理解架構115
7.1.1 Tensor2Tensor115
7.1.2 OmniNet 120
7.2 自研多模態內容理解架構121
7.2.1 框架設計背景121
7.2.2 contentAI框架介紹125
7.2.3 高度配置化125
7.2.4 高度組件化127
7.2.5 開發者模式與使用者模式130
7.2.6 計算式網路搭建131
7.2.7 計算圖網路搭建 132
7.2.8 自動化資料集建構 133
7.2.9 能力優化133
7.2.10 快速服務化134
7.2.11 內容理解能力135
7.2.12 程式碼編寫範例136
7.3 本章小結141
第二部分 內容生成
第8章 圖片生成144
8.1 基於GAN的圖片生成144
8.1.1 生成對抗網路144
8.1.2 條件圖片生成146
8.1.3 文字轉圖片147
8.1.4 圖片遷移147
8.1.5 高解析度圖片生成149
8.2 基於擴散模型的圖片生成151
8.2.1 擴散模型152
8.2.2 擴散模型生成圖153
8.3 圖片設計155
8.3.1 智能裁切155
8.3.2 智慧佈局156
8.4 本章小結157
第9章 文本生成158
9.1 文本生成的背景知識158
9.1.1 語言模型158
9.1.2 CFG文法159
9.1.3 Encoder-Decoder框架160
9.1.4 文本生成品質量化 161
9.2 文本生成演算法162
9.2.1 基於統計的文本生成模型162
9.2.2 基於神經網路的文本生成技術164
9.3 本章小結172
第10章 AI素材合成173
10.1 AI人臉屬性編輯173
10.1.1 研究目標與意義173
10.1.2 研究困難175
10.1.3 研究進展176
10.2 AI語音合成181
10.2.1 研究目標與意義181
10.2.2 基本的語音合成系統簡介182
10.2.3 端對端的語音合成系統183
10.2.4 基於深度學習的演算法介紹185
10.3 AI虛擬人技術195
10.3.1 研究目標與意義195
10.3.2 二維多目標人體姿態估計197
10.3.3 二維-三維人體姿態轉換203
10.4 AI表情包合成205
10.4.1 表情包特性206
10.4.2 表情包自動合成的意義及
挑戰207
10.4.3 表情包合成演算法208
10.4.4 表情包合成應用212
10.5 本章小結213
第11章 影片編輯214
11.1 結構化資料影片編輯215
11.1.1 基於模板的電視報道影片編輯215
11.1.2 基於剪輯元素屬性約束的
影片編輯216
11.1.3 視訊特效合成系統實務217
11.2 文字驅動影片編輯222
11.2.1 基於主題文本編輯的視頻
蒙太奇222
11.2.2 基於解說文本的旅遊視頻
編輯224
11.3 音樂驅動影片編輯225
11.3.1 音樂驅動影片蒙太奇225
11.3.2 根據音樂生成視覺節奏227
11.3.3 基於音樂合成視覺敘事
鏡頭230
11.4 本章小結232
第三部分 內容質量
第12章 標題黨234
12.1 模型建構235
12.1.1 業務定義235
12.1.2 基於標題建模236
12.1.3 基於文章整體內容建模 238
12.2 標題黨研究方向241
12.2.1 資料方面的研究241
12.2.2 特徵構造方面的研究241
12.2.3 模型方面的研究241
12.3 資料集242
12.4 相關論文介紹243
12.4.1 特徵構造243
12.4.2 深度學習245
12.5 本章小結247
第13章 假新聞248
13.1 基本方法248
13.1.1 基於內容真實性248
13.1.2 基於內容風格249
13.1.3 基於傳播模式251
13.1.4 基於傳播源特徵253
13.2 未來研究方向253
13.3 資料集254
13.4 相關論文介紹254
13.5 本章小結271
第14章 圖文低俗辨識272
14.1 研究背景與問題定義272
14.1.1 研究背景272
14.1.2 問題定義273
14.2 業界常用產品274
14.3 主要技術手段275
14.3.1 關鍵字275
14.3.2 模型276
14.3.3 匹配277
14.3.4 舉報279
14.3.5 使用者行為279
14.3.6 多模態279
14.4 業務案例279
14.5 本章小結282