語音識別服務實戰

Name: 語音識別服務實戰
Price: 652 TWD
Availability: InStock
Author: 楊學銳,晏超,劉雪松
ISBN: 7121425904

楊學銳,晏超,劉雪松

出版商: 電子工業
出版日期: 2022-02-01
定價: $768
售價: 8.5 折 $652
語言: 簡體中文
頁數: 364
ISBN: 7121425904
ISBN-13: 9787121425905
相關分類: 語音辨識 Speech-recognition
相關翻譯: Hey Siri 及 Ok Google 原理 - AI 語音辨識專案真應用開發, 2/e (繁中版)

立即出貨

買這商品的人也買了...

$300

圖解語音識別
~~$690~~ $538

NLP 工程師養成術：自然語言處理入門
$384

語音識別：原理與應用
~~$450~~ $355

Python 機器學習超進化：AI影像辨識跨界應用實戰 (附100分鐘影像處理入門影音教學/範例程式)
$453

語音識別基本法：Kaldi 實踐與探索
$805

MySQL 8 查詢性能優化
$177

MicroPython 開發與實戰
~~$600~~ $468

ASP.NET Core 6 實戰守則：超易懂的跨平台開發入門教學 (iT邦幫忙鐵人賽系列書)
~~$1,200~~ $948

開發者傳授 PyTorch 秘笈
$599

編程導論 — 以 Python 為舟, 2/e
~~$690~~ $538

Arduino 自造趣：結合 JavaScript x Vue x Phaser 輕鬆打造個人遊戲機 (iThome鐵人賽系列書)
$414

語音識別：原理與應用, 2/e
~~$880~~ $695

Scikit-learn 詳解與企業應用：機器學習最佳入門與實戰
~~$1,200~~ $948

AI 必須！從做中學貝氏統計 – 從事機器學習、深度學習、資料科學、大數據分析一定要懂的統計利器 (修訂第二版)
$555

面向信號處理的機器學習
~~$630~~ $497

資料科學 SQL 工作術 – 以 MySQL 為例與情境式 ChatGPT 輔助學習 (SQL for Data Scientists - A Beginner’s Guide for Building Datasets for Analysis)
~~$534~~ $507

PyTorch 語音識別實戰
~~$790~~ $624

K8S 自學聖經：10大核心模板快速入門【圖解教學】
~~$380~~ $342

金融市場這樣比喻你就懂：33個神比喻，讓你讀懂金融市場的遊戲規則與陷阱
~~$680~~ $510

LLM 核心攻略制霸生成式 AI：ChatGPT、嵌入技術、微調與多模態 AI 最佳實踐
~~$414~~ $393

語音與音樂信號處理輕鬆入門 (基於 Python 與 PyTorch)
~~$714~~ $678

CMOS 鎖相環設計 : 從電路到結構
$453

無處不在的算法（雙色版）
~~$834~~ $792

傳感器執行器及接口原理與應用 (上冊)(原書第2版)
~~$660~~ $514

LangGraph 實戰開發 AI Agent 全攻略：掌握 AI 模型 × 工作流程 × 設計應用，從零打造智慧分工多代理協作系統（iThome鐵人賽系列書)

簡體書拿來曬2本75折詳見活動內容 »

VIP 95折
~~$534~~ $507

編譯原理, 2/e (Compilers : Principles, Techniques, and Tools, 2/e)
VIP 95折
~~$594~~ $564

深度學習之 TensorFlow：入門、原理與進階實戰
85折
$402

Essential C++ (簡體中文版)
VIP 95折
~~$774~~ $735

TCP/IP 詳解 (捲1)：協議 (TCP/IP Illustrated, Volume 1 : The Protocols, 2/e)
85折
$402

Go 並發編程實戰, 2/e
VIP 95折
~~$474~~ $450

機器人學導論, 4/e (Introduction to Robotics: Mechanics and Control, 4/e)
85折
$402

深入淺出 Vue.js
85折
$351

實用機器學習 (Real-world Machine Learning)
85折
$504

深度探索 C++ 對像模型 (Inside the C++ Object Model)
85折
$300

區塊鏈項目開發指南
85折
$402

原子教你玩 STM32 (庫函數版第2版)
85折
$402

Spring Security 實戰
85折
$611

嵌入式 Linux 基礎教程, 2/e (Embedded Linux Primer: A Practical Real-World Approach, 2/e)
85折
$504

MySQL 技術內幕－InnoDB 存儲引擎, 2/e
85折
$448

PADS 9.5 實戰攻略與高速 PCB 設計
85折
$244

基於 Bootstrap 和 Knockout.js 的 ASP.NET MVC 開發實戰 (ASP.Net MVC 5 with Bootstrap and Knockout.Js: Building Dynamic, Responsive Web Applications)
85折
$265

深入淺出 USB 系統開發 : 基於 ARM Cortex-M3
85折
$402

Redis 設計與實現
VIP 95折
~~$354~~ $336

FPGA 原理和結構
VIP 95折
~~$474~~ $450

TCP/IP 網絡編程
75折
$445

數據分析與機器學習(基於R語言)
85折
$652

深度學習推薦系統 2.0
75折
$400

移動通信系統架構設計
VIP 95折
~~$528~~ $501

自動駕駛汽車 BEV 感知算法
50折
$207

區塊鏈技術進階與實戰

商品描述

隨著語音算法技術的不斷發展與完善，如何進行工程落地成為語音商業應用中普遍面臨的問題。工程落地不僅要考慮模型效果，還要考慮資源占用、模塊聯調且整個架構要具有可靠性、可擴展性和可維護性。本書圍繞如何從零構建一個完整的語音識別系統，深入淺出地介紹了語音識別前端算法、語音識別算法及說話人日誌算法原理；基於Kaldi的模型訓練；語音識別工程落地和服務搭建。本書適合作為語音技術研究人員及對語音技術感興趣的開發人員的參考用書。

目錄大綱

第1章語音辨識概述
1.1 語音辨識發展歷程
1.2 語音辨識產業與應用
1.2.1 消費級市場
1.2.2 企業級市場
1.3 常用語音處理工具
1.3.1 WebRTC
1.3.2 Kaldi
1.3.3 端到端語音辨識工具包

第2章語音信號基礎
2.1 語音信號的聲學基礎
2.1.1 語音產生機理
2.1.2 語音信號的產生模型
2.1.3 語音信號的感知
2.2 語音信號的數碼化和時頻變換
2.2.1 語音信號的採樣、量化和編碼
2.2.2 語音信號的時頻變換
2.3 本章小結

第3章語音前端演算法
3.1 語音前端演算法概述
3.2 VAD
3.2.1 基於門限判決的VAD
3.2.2 基於高斯混合模型的VAD
3.2.3 基於神經網絡的VAD
3.3 單通道降噪
3.3.1 譜減法
3.3.2 維納濾波法
3.3.3 音樂噪聲和參數譜減法
3.3.4 貝葉斯準則下的MMSE
3.3.5 噪聲估計
3.3.6 基於神經網絡的單通道降噪
3.4 回聲消除
3.4.1 回聲消除概述
3.4.2 線性自我調整濾波
3.4.3 分塊頻域自我調整濾波器
3.4.4 雙講檢測
3.4.5 延遲估計
3.4.6 殘留回聲消除
3.4.7 基於神經網絡的回聲消除
3.5 麥克風陣列與波束形成
3.5.1 麥克風陣列概述
3.5.2 延遲求和波束形成
3.5.3 最小方差無失真回應波束形成
3.5.4 廣義旁瓣對消波束形成
3.5.5 後置濾波
3.5.6 基於神經網絡的波束形成
3.6 聲源定位
3.6.1 GCC-PHAT
3.6.2 基於自我調整濾波的聲源定位
3.6.3 SRP-PHAT
3.6.4 子空間聲源定位演算法
3.6.5 基於神經網絡的聲源定位
3.7 其他未盡話題
3.8 本章小結

第4章語音辨識原理
4.1 特徵提取
4.1.1 特徵預處理
4.1.2 常見的語音特徵
4.2 傳統聲學模型
4.2.1 聲學建模單元
4.2.2 GMM-HMM
4.2.3 強制對齊
4.3 DNN-HMM
4.3.1 語音辨識中的神經網絡基礎
4.3.2 常見的神經網絡結構
4.4 語言模型
4.4.1 n-gram語言模型
4.4.2 語言模型的評價指標
4.4.3 神經語言模型
4.5 WFST解碼器
4.5.1 WFST原理
4.5.2 常見的WFST運算
4.5.3 語音辨識中的WFST解碼器
4.5.4 權杖傳遞演算法
4.5.5 Beam Search
4.6 序列區分性訓練
4.6.1 MMI和bMMI
4.6.2 MPE和sMBR
4.6.3 詞圖
4.6.4 LF-MMI
4.7 端到端語音辨識
4.7.1 CTC
4.7.2 Seq2Seq
4.8 語音辨識模型評估
4.9 本章小結

第5章中文普通話模型訓練——以multi_cn為例
5.1 Kaldi安裝與環境配置
5.2 Kaldi中的資料格式與資料準備
5.3 語言模型訓練
5.4 發音詞典準備
5.5 特徵提取
5.6 Kaldi中的Transition模型
5.7 預對齊模型訓練
5.7.1 單音素模型訓練
5.7.2 delta特徵模型訓練
5.7.3 lda_mllt特徵變換模型訓練
5.7.4 說話人自我調整訓練
5.8 資料增強
5.8.1 數據清洗及重分割
5.8.2 速度增強和音量增強
5.8.3 SpecAugment
5.9 I-Vector訓練
5.9.1 對角UBM
5.9.2 I-Vector提取器
5.9.3 提取訓練資料的I-Vector
5.10 神經網絡訓練
5.10.1 Chain模型
5.10.2 Chain模型資料準備
5.10.3 神經網絡配置與訓練
5.11 解碼圖生成
5.12 本章小結
5.13 附錄
5.13.1 xconfig中的描述符及網絡配置表
5.13.2 Chain模型中的egs
5.13.3 Kaldinnet3中反覆運算次數和學習率調整

第6章基於Kaldi的說話人日誌
6.1 說話人日誌概述
6.1.1 什麼是說話人日誌
6.1.2 說話人日誌技術
6.1.3 說話人日誌評價指標
6.2 聲紋模型訓練——以CNCeleb為例
6.2.1 聲紋數據準備
6.2.2 I-Vector訓練
6.2.3 X-Vector訓練
6.2.4 LDA/PLDA後端模型訓練
6.2.5 說話人日誌後端模型訓練
6.3 本章小結

第7章基於Kaldi的語音SDK實現
7.1 語音特徵提取
7.1.1 音訊讀取
7.1.2 音訊特徵提取
7.2 基於WebRTC的語音活動檢測
7.3 說話人日誌模組
7.3.1 I-Vector提取
7.3.2 X-Vector提取
7.3.3 說話人日誌演算法實現
7.4 語音辨識解碼
7.5 本章小結

第8章基於gRPC的語音辨識服務
8.1 gRPC語音服務
8.2 ProtoBuf協議定義
8.3 基於gRPC的語音服務實現
8.3.1 gRPC Server實現
8.3.2 gRPC Client實現
8.3.3 gRPC語音服務的編譯與測試
8.4 本章小結
參考文獻