TensorFlow 語音識別實戰

王曉華

  • 出版商: 清華大學
  • 出版日期: 2021-08-01
  • 售價: $414
  • 貴賓價: 9.5$393
  • 語言: 簡體中文
  • 頁數: 256
  • 裝訂: 平裝
  • ISBN: 7302584850
  • ISBN-13: 9787302584858
  • 相關分類: DeepLearningTensorFlow
  • 立即出貨 (庫存 < 4)

  • TensorFlow 語音識別實戰-preview-1
  • TensorFlow 語音識別實戰-preview-2
  • TensorFlow 語音識別實戰-preview-3
TensorFlow 語音識別實戰-preview-1

買這商品的人也買了...

商品描述

本書使用新的TensorFlow 2作為語音識別的基本框架,引導讀者入門並掌握基於深度學習的語音識別基本理論、概念以及實現實際項目。全書內容循序漸進,從搭建環境開始,逐步深入理論、代碼及應用實踐,是語音識別技術圖書的**。 本書分為10章,內容包括語音識別概況與開發環境搭建、TensorFlow和Keras、深度學習的理論基礎、捲積層與MNIST實戰、TensorFlow Datasets和TensorBoard詳解、ResNet模型、使用循環神經網絡的語音識別實戰、有趣的詞嵌入實戰、語音識別中的轉換器實戰、語音漢字轉換實戰。 本書內容詳盡、示例豐富,適合作為語音識別和深度學習初學者必備的參考書,同時非常適合作為高等院校和培訓機構人工智能及相關專業師生的參考教材。

作者簡介

王曉華,計算機專業講師,長期講授面向對象程序設計、數據結構、Hadoop程序設計等研究生和本科生相關課程;主要研究方向為雲計算、數據挖掘。
曾主持和參與多項國家和省級科研課題,獨立科研項目獲省級成果認定,發表過多篇論文,擁有一項國家專利。
著有《Spark MLlib機器學習實踐》《TensorFlow深度學習應用實踐》《OpenCV+TensorFlow深度學習與計算機視覺實戰》《TensorFlow 2.0卷積神經網絡實戰》《TensorFlow+Keras自然語言處理實戰》等圖書。

目錄大綱

目錄
第1章  語音識別之路 1
1.1  何謂語音識別 1
1.2  語音識別為什麽難——語音識別的發展歷程 2
1.2.1  高斯混合-隱馬爾科夫時代 3
1.2.2  循環神經網絡-隱馬爾科夫時代 4
1.2.3  基於深度學習的端到端語音識別時代 5
1.3  語音識別商業化之路的三個關鍵節點 5
1.4  語音識別的核心技術與行業發展趨勢 7
1.5  搭建環境1:安裝Python 8
1.5.1  Anaconda的下載與安裝 8
1.5.2  Python編譯器PyCharm的安裝 11
1.5.3  使用Python計算softmax函數 14
1.6  搭建環境2:安裝TensorFlow 2.1 15
1.6.1  安裝TensorFlow 2.1的CPU版本 15
1.6.2  安裝TensorFlow 2.1的GPU版本 15
1.6.3  練習——Hello TensorFlow 18
1.7  實戰——基於特徵詞的語音喚醒 19
1.7.1  第一步:數據的準備 19
1.7.2  第二步:數據的處理 20
1.7.3  第三步:模型的設計 21
1.7.4  第四步:模型的數據輸入方法 22
1.7.5  第五步:模型的訓練 24
1.7.6  第六步:模型的結果和展示 25
1.8  本章小結 25

第2章  TensorFlow和Keras 26
2.1  TensorFlow和Keras 26
2.1.1  模型 27
2.1.2  使用Keras API實現鳶尾花分類(順序模式) 27
2.1.3  使用Keras函數式編程實現鳶尾花分類(重點) 30
2.1.4  使用保存的Keras模式對模型進行復用 33
2.1.5  使用TensorFlow標準化編譯對iris模型進行擬合 34
2.1.6  多輸入單一輸出TensorFlow 編譯方法(選學) 38
2.1.7  多輸入多輸出TensorFlow 編譯方法(選學) 41
2.2  全連接層詳解 43
2.2.1  全連接層的定義與實現 43
2.2.2  使用TensorFlow自帶的API實現全連接層 44
2.2.3  打印顯示已設計的Model結構和參數 48
2.3  懶人的福音——Keras模型庫 49
2.3.1  ResNet50模型和參數的載入 50
2.3.2  使用ResNet50作為特徵提取層建立模型 52
2.4  本章小結 54

第3章  深度學習的理論基礎 55
3.1  BP神經網絡簡介 55
3.2  BP神經網絡兩個基礎算法詳解 59
3.2.1  最小二乘法詳解 59
3.2.2  道士下山的故事:梯度下降算法 61
3.3  反饋神經網絡反向傳播算法 63
3.3.1  深度學習基礎 64
3.3.2  鏈式求導法則 65
3.3.3  反饋神經網絡原理與公式推導 66
3.3.4  反饋神經網絡的激活函數 71
3.3.5  反饋神經網絡的Python實現 72
3.4  本章小結 76

第4章  捲積層與MNIST實戰 77
4.1  捲積運算的基本概念 77
4.1.1  捲積運算 78
4.1.2  TensorFlow中捲積函數實現詳解 79
4.1.3  池化運算 82
4.1.4  softmax激活函數 83
4.1.5  捲積神經網絡原理 84
4.2  編程實戰:MNIST手寫體識別 86
4.2.1  MNIST數據集 86
4.2.2  MNIST數據集特徵和標簽介紹 88
4.2.3  TensorFlow 2.X編程實戰:MNIST數據集 90
4.2.4  使用自定義的捲積層實現MNIST識別 95
4.3  本章小結 98

第5章  TensorFlow Datasets和TensorBoard詳解 99
5.1  TensorFlow Datasets簡介 99
5.1.1  Datasets數據集的安裝 101
5.1.2  Datasets數據集的使用 101
5.2  Datasets數據集的使用——FashionMNIST 103
5.2.1  FashionMNIST數據集下載與展示 104
5.2.2  模型的建立與訓練 106
5.3  使用Keras對FashionMNIST數據集進行處理 108
5.3.1  獲取數據集 108
5.3.2  數據集的調整 109
5.3.3  使用Python類函數建立模型 109
5.3.4  Model的查看和參數打印 111
5.3.5  模型的訓練和評估 112
5.4  使用TensorBoard可視化訓練過程 114
5.4.1  TensorBoard文件夾的設置 115
5.4.2  TensorBoard的顯式調用 115
5.4.3  TensorBoard的使用 118
5.5  本章小結 121

第6章  從冠軍開始:ResNet 122
6.1  ResNet基礎原理與程序設計基礎 123
6.1.1  ResNet誕生的背景 123
6.1.2  模塊工具的TensorFlow實現——不要重復造輪子 126
6.1.3  TensorFlow高級模塊layers用法簡介 126
6.2  ResNet實戰:CIFAR-100數據集分類 134
6.2.1  CIFAR-100數據集簡介 134
6.2.2  ResNet殘差模塊的實現 136
6.2.3  ResNet網絡的實現 139
6.2.4  使用ResNet對CIFAR-100數據集進行分類 142
6.3  ResNet的兄弟——ResNeXt 143
6.3.1  ResNeXt誕生的背景 143
6.3.2  ResNeXt殘差模塊的實現 145
6.3.3  ResNeXt網絡的實現 146
6.3.4  ResNeXt和ResNet的比較 148
6.4  本章小結 149

第7章  使用循環神經網絡的語音識別實戰 150
7.1  使用循環神經網絡的語音識別 150
7.2  長短期記憶網絡 151
7.2.1  Hochreiter、Schmidhuber和LSTM 152
7.2.2  循環神經網絡與長短時間序列 153
7.2.3  LSTM的處理單元詳解 154
7.2.4  LSTM的研究發展 157
7.2.5  LSTM的應用前景 158
7.3  GRU層詳解 159
7.3.1  TensorFlow中的GRU層詳解 160
7.3.2  單向不行,那就雙向 160
7.4  站在巨人肩膀上的語音識別 161
7.4.1  使用TensorFlow自帶的模型進行文本分類 162
7.4.2  用VGGNET替換ResNet是否可行 164
7.5  本章小結 165

第8章  梅西-阿根廷+意大利=?:有趣的詞嵌入實戰 166
8.1  文本數據處理 167
8.1.1  數據集介紹和數據清洗 167
8.1.2  停用詞的使用 169
8.1.3  詞向量訓練模型Word2Vec使用介紹 172
8.1.4  文本主題的提取:基於TF-IDF(選學) 175
8.1.5  文本主題的提取:基於TextRank(選學) 179
8.2  更多的Word Embedding方法——fastText和預訓練詞向量 181
8.2.1  fastText的原理與基礎算法 182
8.2.2  fastText訓練以及與TensorFlow 2.X的協同使用 183
8.2.3  使用其他預訓練參數做TensorFlow詞嵌入矩陣(中文) 189
8.3  針對文本的捲積神經網絡模型:字符捲積 191
8.3.1  字符(非單詞)文本的處理 191
8.3.2  捲積神經網絡文本分類模型的實現:conv1d(一維捲積) 199
8.4  針對文本的捲積神經網絡模型:詞捲積 200
8.4.1  單詞的文本處理 201
8.4.2  捲積神經網絡文本分類模型的實現:conv2d(二維捲積) 203
8.5  使用捲積對文本分類的補充內容 206
8.5.1  漢字的文本處理 207
8.5.2  其他的一些細節 209
8.6  本章小結 210

第9章  從拼音到漢字——語音識別中的轉換器 211
9.1  編碼器的核心:註意力模型 212
9.1.1  輸入層——初始詞向量層和位置編碼器層 212
9.1.2  自註意力層(重點) 214
9.1.3  ticks和LayerNormalization 218
9.1.4  多頭自註意力 219
9.2  構建編碼器架構 222
9.2.1  前饋層的實現 223
9.2.2  編碼器的實現 224
9.3  實戰編碼器——漢字拼音轉化模型 228
9.3.1  漢字拼音數據集處理 228
9.3.2  漢字拼音轉化模型的確定 230
9.3.3  模型訓練部分的編寫 234
9.3.4  推斷函數的編寫 235
9.4  本章小結 237

第10章  實戰——基於MFCC和CTC的語音漢字轉換 238
10.1  語音識別的理論基礎1——MFCC 238
10.2  語音識別的理論基礎2——CTC 245
10.3  實戰——語音漢字轉換 247
10.3.1  數據集THCHS-30簡介 247
10.3.2  數據集的提取與轉化 248
10.4  本章小結 256