Kaldi 語音識別實戰
陳果果 等
- 出版商: 電子工業
- 出版日期: 2020-03-01
- 定價: $534
- 售價: 8.5 折 $454
- 語言: 簡體中文
- 頁數: 336
- 裝訂: 平裝
- ISBN: 7121378744
- ISBN-13: 9787121378744
-
相關分類:
語音辨識 Speech-recognition
-
相關翻譯:
AI 語音辨識:用 Kaldi 實作應用全集 (繁中版)
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
$403解析深度學習 : 語音識別實踐
-
$580$493 -
$352基於深度學習的自然語言處理/智能科學與技術叢書
-
$450自然語言處理理論與實戰
-
$422深度學習 : 語音識別技術實踐
-
$331Python 深度學習實戰:基於 TensorFlow 和 Keras 的聊天機器人以及人臉、物體和語音識別
-
$454語音信號處理, 3/e
-
$680$537 -
$301特徵工程入門與實踐 (Feature Engineering Made Easy)
-
$673知識圖譜:方法、實踐與應用
-
$520$406 -
$648$616 -
$454深度學習與目標檢測
-
$505實時語音處理實踐指南
-
$458深入淺出 PyTorch — 從模型到源碼
-
$505知識圖譜與深度學習
-
$384語音識別:原理與應用
-
$454WebRTC Native 開發實戰
-
$880$695 -
$454語音識別基本法:Kaldi 實踐與探索
-
$594$564 -
$2,350$2,233 -
$616深入理解分佈式系統
-
$500$390 -
$880$695
商品描述
剛剛過去的十年是語音技術發展的黃金十年。
2010 年前後,從谷歌公司發布第一個語音搜索應用、
蘋果公司發布第一個語音助手Siri 開始,語音技術的發展轉瞬進入了快車道。
語音技術的基礎算法不斷推陳出新,語音任務Benchmark 持續被刷新;
語音產品的應用也從一開始很小眾的語音輸入,逐漸滲透到人們生活的方方面面。
語音產業飛速發展,傳統的語音技術教材已經滿足不了該領域從業者的迫切需求。
本書以目前流行的開源語音識別工具Kaldi 為切入點,
深入淺出地講解了語音識別前沿的技術及它們的實踐應用。
本書的作者們擁有深厚的學術積累及豐富的工業界實戰經驗。
本書適合語音技術相關研究人員及互聯網從業人員學習參考。
作者簡介
陳果果
清華大學本科學位,約翰霍普金斯大學博士學位,
主要研究方向是語音識別及關鍵詞檢索,
師從語音識別開源工具Kaldi主要開發者Daniel Povey,
以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。
博士期間為Google開發了Google的喚醒詞Okay Google的原型,
現在已經用到數以億計的安卓設備及Google智能語音交互設備上。
博士期間同時參與開發語音識別開源工具Kaldi,以及神經網絡開源工具CNTK。
博士畢業以後聯合創辦KITT.AI,專注於語音識別及自然語言處理,
公司於2017年被百度收購,目前擔任百度智能生活事業群組(SLG)主任架構師。
都家宇
本科畢業於大連理工大學,後於澳大利亞新南威爾士大學電子信息工程學院學習,
取得信號處理專業碩士學位。
研究生期間在導師Julien Epps 指導下開始進行語音處理、情緒識別方向的研究。
畢業後先後任職於清華大學語音技術實驗室、百度語音技術部,
以及阿里巴巴iDST、達摩院語音組,從事聲學模型、解碼器、
語音喚醒等方面的研發工作。
參與過與Kaldi 相關的工作有:Kaldi nnet1神經網絡框架中lstm 作者;
發起並推動全球大規模的中文開源數據集語音項目AISHELL-1、AISHELL-2,
已服務於清華大學、北京大學、南洋理工大學、
哥倫比亞大學等近200所國內外高校的科研項目。
那興宇
本科和博士均畢業於北京理工大學,主要研究方向是語音識別和語音合成。
先後任職於中國科學院聲學研究所和阿里巴巴機器人,
從事語音識別模型訓練系統和語音交互系統的開發。
目前就職於微軟,擔任資深應用科學家,
從事語音識別算法和技術架構的開發及業務支持工作。
2015年開始在Kaldi開源項目中貢獻代碼,參與了nnet3和chain模型的開發工作,
並維護其中若干示例及OpenSLR的中文語音識別模型。
張俊博
博士畢業於中國科學院聲學研究所,師從顏永紅研究員。
在小米公司從零起主導構建了整套語音算法研究框架,
包括語音識別、智能設備語音喚醒、聲紋識別、語音增強、
用於語音應用的神經網絡部署,均達到了當時的先進水平,
並發表頂會論文若干篇,為後續的語音研發工作建立了基礎。
近期上線了用於外語學習的發音質量評測引擎,
並給Kaldi貢獻了發音良好度評分的代碼。
目錄大綱
1 語音識別技術基礎 1
1.1 語音識別極簡史 1
1.2 語音識別系統架構 6
1.3 一些其他細節11
2 Kaldi概要介紹15
2.1 發展歷史15
2.2 設計思想18
2.3 安裝20
2.4 一個簡單的示例26
2.5 示例介紹34
3 數據整理44
3.1 數據分集44
3.2 數據預處理49
3.3 輸入和輸出機制56
3.4 常用數據表單與處理腳本69
3.5 語言模型相關文件79
4 經典聲學建模技術94
4.1 特徵提取95
4.2 單音子模型的訓練107
4.3 三音子模型訓練128
4.4 特徵變換技術139
4.5 區分性訓練143
5 構圖和解碼147
5.1 N元文法語言模型148
5.2 加權有限狀態轉錄機151
5.3 用WFST表示語言模型156
5.4 狀態圖的構建158
5.5 圖的結構優化170
5.6 最終狀態圖的生成174
5.7 基於令牌傳遞的維特比搜索176
5.8 SimpleDecoder源碼分析178
5.9 Kaldi 解碼器家族187
5.10 帶詞網格生成的解碼189
5.11 用語言模型重打分提升識別率192
6 深度學習聲學建模技術195
6.1 基於神經網絡的聲學模型195
6.2 神經網絡在Kaldi中的實現200
6.3 神經網絡模型訓練214
6.4 神經網絡的區分性訓練228
6.5 與其他深度學習框架的結合242
7 關鍵詞搜索與語音喚醒245
7.1 關鍵詞搜索技術介紹245
7.2 語音檢索247
7.3 語音喚醒263
……