實時語音處理實踐指南

葛世超等

出版商: 電子工業
出版日期: 2020-04-01
售價: $594
語言: 簡體中文
頁數: 352
裝訂: 平裝
ISBN: 712138759X
ISBN-13: 9787121387593
相關分類: 語音辨識 Speech-recognition

已絕版

買這商品的人也買了...

~~$450~~ $270

演算法圖鑑：26種演算法 + 7種資料結構，人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解
$229

語音信號處理, 3/e
$351

FFmpeg 從入門到精通
$414

直播系統開發 : 基於 Nginx 與 Nginx-rtmp-module
~~$534~~ $507

語音信號處理, 3/e
~~$500~~ $450

數位訊號處理－Python 程式實作, 2/e (附實作光碟)
~~$580~~ $458

機器學習的數學基礎 : AI、深度學習打底必讀
$453

Kaldi 語音識別實戰
$300

圖解語音識別
$358

語音信號處理 (C++版)
$384

語音識別：原理與應用
$534

WebRTC Native 開發實戰
~~$880~~ $616

AI 語音辨識：用 Kaldi 實作應用全集
$504

WebRTC 音視頻開發：React + Flutter + Go 實戰
$594

聲紋技術：從核心算法到工程實踐
$402

智能語音處理
$453

語音識別基本法：Kaldi 實踐與探索
$708

嵌入式 C語言自我修養 — 從芯片、編譯器到操作系統
$504

WebRTC 技術詳解：從0到1構建多人視頻會議系統
$453

WebRTC 音視頻實時互動技術：原理、實戰與源碼分析
~~$880~~ $695

Hey Siri 及 Ok Google原理 - AI語音辨識專案真應用開發
~~$520~~ $468

聲學原理與噪音量測控制, 5/e
$474

Linux 內核完全註釋
$232

智能語音信號處理及應用
$414

語音識別：原理與應用, 2/e

商品描述

本書主要介紹基於因特網場景的交互式實時語音處理流程，內容涉及智能語音助手、
智能音箱、音/視頻會議等，具體包括實時語音信號處理、數字音效、網絡傳輸編/解碼和語音喚醒識別四部分。
在闡述各部分內容時，本書從基本概念和原理入手，將理論和實踐相結合，
並細緻分析了極具商業價值的實例，以幫助讀者瞭解相關算法在工程上是如何實現的。
另外，為便於有興趣的讀者快速進行算法驗證並將其改進和應用到實際的項目中，
作者也開源了書中算法的源碼。

對於語音技術零基礎的讀者，建議按照本書的編排順序閱讀；
本書也適合有一定語音理論基礎的高等院校相關專業本科生和研究生；
對從事語音相關產品的非技術人員來說，可從本書瞭解語音處理的主要內容和技術難點，
對從事語音工程開發的技術人員來說，本書開源了一些極具商業價值的源碼工程，具有較高的參考價值。

作者簡介

葛世超

碩士，畢業於西安電子科技大學雷達國防重點實驗室，先後任職於阿裡巴巴、rokid和Zoom，從事語音算法工作。

呂強

學士，吉林大學通信工程專業畢業，原微鯨電視系統軟件音頻專家。

錢思衝

武漢理工大學博士，2016年至2018年在rokid從事麥克風陣列信號研究，目前主要研究語音信號盲源分離。

張博倫

碩士研究生，畢業於中國海洋大學海底科學與探測技術教育部重點實驗室。
畢業後先後從事水聲、音頻信號處理等工作。

張碩

畢業於西安電子科技大學和法國高等電力學院，先後任職於諾基亞和Rokid，從事語音算法相關工作。

目錄大綱

緒論1
第1章信號處理 7
1.1 數字和模擬頻率 7
1.2 離散傅里葉變換8
1.2.1 實數DFT 9
1.2.2 複數DFT 10
1.2.3 負頻分量10
1.2.4 DFT變換性質10
1.3 FFT 11
1.3.1 FFT 結果舉例12
1.3.2 實信號FFT 13
1.3.3 短時傅里葉變換14
1.3.4 STFT語音窗函數選擇14
1.4 重疊相加法和重疊保留法16
1.4.1 OLA 17
1.4.2 OLS 19
1.5 加權重疊相加法21
1.5.1 WOLA 計算過程22
1.5.2 WOLA 窗函數選擇22
1.6 濾波器組23
1.7 語音預加重27
1.8 高斯分佈27
1.8.1 單高斯分佈27
1.8.2 多維高斯分佈29
1.9 HMM模型31
1.10 卡爾曼濾波32

第2章發音機理和器件34
2.1 語音的產生和接收34
2.1.1 語音產生機理34
2.1.2 發聲模型36
2.1.3 發音單位36
2.1.4 發音分類37
2.1.5 聲音接收37
2.1.6 聲音傳播38
2.2 揚聲器38
2.2.1 電學性能38
2.2.2 聲學性能39
2.2.3 底噪40
2.2.4 頻響特性41
2.2.5 THD+N POUT 41
2.2.6 電壓（功率）和失真42
2.3 麥克風42
2.3.1 麥克風性能指標42
2.3.2 麥克風的選擇43
2.4 結構設計45
2.5 音頻設備46
2.6 聲學測試49

第3章語音端點檢測59
3.1 特徵選取59
3.2 判決準則61
3.2.1 門限61
3.3 VAD 實例63
3.4 語音/非語音幀的初始參數75

第4章單通道降噪79

4.1 譜減法79
4.2 維納濾波84
4.3 子空間降噪86
4.4 WebRTC 單通道降噪實現87
4.5 深度學習降噪101

第5章聲學迴聲消除106
5.1 迴聲消除原理106
5.2 自適應濾波器108
5.3 WebRTC 迴聲消除算法113
5.4 Speex 迴聲消除算法128

第6章聲源定位147
6.1 GCC算法147
6.2 SRP-PHAT算法149
6.3 MUSIC算法150
6.4 TOPS 算法152
6.5 FRIDA算法154
6.6 後處理抗噪155

第7章波束形成技術162
7.1 麥克風陣列163
7.2 常見波束形成方法168
7.3 WebRTC 波束形成實例174
7.4 後置濾波（Post-filtering） 187

第8章盲源分離196
8.1 基本概念及數學預備知識196
8.2 盲語音分離預處理——PCA 199
8.3 頻域獨立成分分析法——FDICA 200
8.4 後置濾波處理205
8.5 GSC 與ICA聯合估計209

第9章音效處理214
9.1 聲道的分類214
9.2 後端音效處理217

第10章語音編/解碼227
10.1 LPC 編碼230
10.2 SILK編/解碼231
10.3 opus 編/解碼概覽239
10.4 語音質量評估247

第11章語音網絡傳輸251
11.1 擁塞控制252
11.2 NetEQ 266

第12章語音喚醒278
12.1 語音喚醒技術簡介278
12.2 特徵提取279
12.3 模型結構284
12.4 計算加速292

第13章語音識別301
13.1 語音特徵提取303
13.2 聲學模型306
13.3 語言模型310
13.4 YES和NO識別實例312
13.5 Kaldi 中文語音識別321
13.6 DeepSpeech 語音識別324
附錄A 本書涉及的專業術語331