译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80...

16
译者序 技术科学的进步历程往往是理论通过实践开辟道路的过程。尽管众多研究者将 Geoffrey Hinton 2006 年发表关于深度置信网络(Deep Belief Networks)的论文, 视为深度学习出现的重要标志,但那时,该技术还只是多层神经网络权值初始化的 一种有效理论尝试,仅仅对一小部分机器学习专家产生着影响。真正让深度学习成为 2013 年《麻省理工学院技术评论》的十大突破性技术之首的,则是深度学习在应用领 域的巨大实践成功。而语音识别正是深度学习取得显著成功的应用领域之一。 语音识别的发展自 20 世纪 70 年代采用隐马尔可夫模型(HMM)进行声学建模 以来,每个时代都有经典的创新成果。如 20 世纪 80 年代的 N 元组语言模型,20 90 年代的 HMM 状态绑定和自适应技术,21 世纪第一个十年的 GMM-HMM 型的序列鉴别性训练等。尽管这些技术都显著降低了语音识别的错误率,但它们都无 法把语音识别推动到商业可用的级别。深度学习技术在 21 世纪的第二个十年产生的 最重大的影响,就是使得语音识别错误率在以往最好系统的基础上相对下降 30% 更多,而这一下降恰恰突破了语音识别真正可用的临界点。该技术的突破伴随着并行 计算基础设施的发展,移动互联网大数据的产生,其影响进一步交叠扩大,目前已经 成为业界毫无争议的标准前沿技术。

Transcript of 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80...

Page 1: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

译者序

  技术科学的进步历程往往是理论通过实践开辟道路的过程。尽管众多研究者将

Geoffrey Hinton 在 2006 年发表关于深度置信网络(Deep Belief Networks)的论文,视为深度学习出现的重要标志,但那时,该技术还只是多层神经网络权值初始化的

一种有效理论尝试,仅仅对一小部分机器学习专家产生着影响。真正让深度学习成为

2013年《麻省理工学院技术评论》的十大突破性技术之首的,则是深度学习在应用领域的巨大实践成功。而语音识别正是深度学习取得显著成功的应用领域之一。

语音识别的发展自 20 世纪 70 年代采用隐马尔可夫模型(HMM)进行声学建模以来,每个时代都有经典的创新成果。如 20 世纪 80 年代的 N 元组语言模型,20 世纪 90 年代的 HMM 状态绑定和自适应技术,21 世纪第一个十年的 GMM-HMM 模型的序列鉴别性训练等。尽管这些技术都显著降低了语音识别的错误率,但它们都无

法把语音识别推动到商业可用的级别。深度学习技术在 21 世纪的第二个十年产生的最重大的影响,就是使得语音识别错误率在以往最好系统的基础上相对下降 30% 或更多,而这一下降恰恰突破了语音识别真正可用的临界点。该技术的突破伴随着并行

计算基础设施的发展,移动互联网大数据的产生,其影响进一步交叠扩大,目前已经

成为业界毫无争议的标准前沿技术。

Page 2: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

译者序

本书作者俞栋博士和邓力博士正是这一突破的最早也是最主要的推动者和实践

者。他们与 Geoffrey Hinton合作,最早将深度学习引入语音识别并取得初步成功,后续又连续突破一系列技术瓶颈,在大尺度连续语音识别系统上取得了研究界和工业界

广泛认可的突破。在几乎所有的语音识别应用深度学习的核心领域上都有这两位学者

的影响。我与这两位学者相交多年,深刻地感觉到,他们在深度学习应用上的突破并

非在恰当的时间接触到恰当的算法那样简单,而是来源于对语音识别技术发展历程的

不懈摸索。事实上,如作者们在本书中提到的,神经网络、层次化模型等思路在语音

识别发展的历史上早已被提出并无数次验证,但都没有成功。回到深度学习成功前的

十年,那时能够持续不断地在“非主流”的方向上尝试、改进、探索,是一件非常不

易的事情。因此,我对二位学者一直怀有敬意。此次受他们之托,将展现深度学习在

语音识别中的实践历程的英文著作翻译成中文,也感到十分荣幸。

目前已有的语音识别书籍均以介绍经典技术为主,本书是首次以深度学习为主

线,介绍语音识别应用的书籍,对读者了解前沿的语音识别技术以及语音识别的发

展历程具有重要的参考价值。全书概要地介绍了语音识别的基本理论,主体部分则全

面而详细地讲解了深度学习的各类应用技术细节,既包括理论细节,也包括工程实现

细节,给出了深度学习在语音识别领域进行应用研究的全景。本书适合有一定机器学

习或语音识别基础的学生、研究者或从业者阅读。由于篇幅限制,一些算法的介绍没

有进行大幅展开,但所有的算法及技术细节都提供了详尽的参考文献,读者可以按图

索骥。

本书的翻译是与钱彦旻博士共同完成的,同时,也得到了上海交通大学智能语音

实验室的贺天行、毕梦霄、陈博、陈哲怀、邓威、刘媛、谭天、童思博、项煦、游永

彬、郑达、朱苏、庄毅萌的帮助,以及电子工业出版社的大力支持,在此一并表示感

谢。翻译过程难免存在疏漏和错误,欢迎读者批评、指正。

俞凯

ii

Page 3: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

序言

以自然语言人机交互为主要目标的自动语音识别(ASR),在近几十年来一直是研究的热点。在 2000年以前,有众多语音识别相关的核心技术涌现出来,例如:混合高斯模型(GMM)、隐马尔可夫模型(HMM)、梅尔倒谱系数(MFCC)及其差分、n 元词组语言模型(LM)、鉴别性训练以及多种自适应技术。这些技术极大地推进了 ASR以及相关领域的发展。但是比较起来,在 2000 年到 2010 年间,虽然 GMM-HMM 序列鉴别性训练这种重要的技术被成功应用到实际系统中,但是在语音识别领域中无论

是理论研究还是实际应用,进展都相对缓慢与平淡。

然而在过去的几年里,语音识别领域的研究热情又一次被点燃。由于移动设备对

语音识别的需求与日俱增,并且众多新型语音应用,例如,语音搜索(VS)、短信听写(SMD)、虚拟语音助手(例如,苹果的 Siri、Google Now 以及微软的 Cortana)等在移动互联世界获得了成功,新一轮的研究热潮自然被带动起来。此外,由于计算

能力的显著提升以及大数据的驱动,深度学习在大词汇连续语音识别下的成功应用也

是同样重要的影响因素。比起此前最先进的识别技术——GMM-HMM 框架,深度学习在众多真实世界的大词汇连续语音识别任务中都使得识别的错误率降低了三分之

一或更多,识别率也进入到真实用户可以接受的范围内。举例来说,绝大多数 SMD系统的识别准确率都超过了 90%,甚至有些系统超过了 95%。

Page 4: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

序言

作为研究者,我们参与并见证了这许许多多令人兴奋的深度学习技术上的发展。

考虑到近年来在学术领域与工业领域迸发的 ASR 研究热潮,我们认为是时候写一本书来总结语音识别领域的技术进展,尤其是近年来的最新进展。

最近 20 年,随着语音识别领域的不断发展,很多关于语音识别以及机器学习的优秀书籍相继问世,这里列举一部分:

• Deep Learning: Methods and Applications, by Li Deng and Dong Yu (June,2014)

• Automatic Speech and Speaker Recognition: Large Margin and Kernel Methods,by Joseph Keshet, Samy Bengio (Jan, 2009)

• Speech Recognition Over Digital Channels: Robustness and Standards, by An-tonio Peinado and Jose Segura (Sept, 2006)

• Pattern Recognition in Speech and Language Processing, by Wu Chou andBiing-Hwang Juang (Feb, 2003)

• Speech Processing — A Dynamic and Optimization-Oriented Approach, by LiDeng and Doug O’Shaughnessy (June 2003)

• Spoken Language Processing: A Guide to Theory, Algorithm and System De-velopment, by Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon (April 2001)

• Digital Speech Processing: Synthesis, and Recognition, Second Edition, bySadaoki Furui (June, 2001)

• Speech Communications: Human and Machine, Second Edition, by DouglasO’Shaughnessy (June, 2000)

• Speech and Language Processing — An Introduction to Natural Language Pro-cessing, Computational Linguistics, and Speech Recognition, by Daniel Jurafskyand James Martin (April, 2000)

• Speech and Audio Signal Processing, by Ben Gold and Nelson Morgan (April,2000)

• Statistical Methods for Speech Recognition, by Fred Jelinek (June, 1997)

• Fundamentals of Speech Recognition, by Lawrence Rabiner and Biing-HwangJuang (April, 1993)

iv

Page 5: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

序言

• Acoustical and Environmental Robustness in Automatic Speech Recognition,by Alex Acero (Nov, 1992)

然而,所有这些书或者是出版于 2009 年以前,也就是深度学习理论被提出之前,或者是像我们 2014 年出版的综述书籍,都没有特别关注深度学习技术在语音识别领域的应用。早期的书籍缺少 2010 年以后的深度学习新技术,而语音识别领域以及深度学习的研究者所需求的技术及数学细节更是没能涵盖其中。不同于以上书籍,本书除

了涵盖必要的背景材料外,尤其整理了近年来语音识别领域上深度学习以及鉴别性层

次模型的相关研究。本书涵盖了一系列深度学习模型的理论基础以及对其的理解,其

中包括深度神经网络(DNN)、受限玻尔兹曼机(RBM)、降噪自动编码器、深度置信网络、循环神经网络(RNN)、长短时记忆(LSTM)RNN 以及各种将他们应用到实际系统的技术,例如,DNN-HMM 混合系统、tandem 和瓶颈系统、多任务学习及迁移学习、序列鉴别性训练以及 DNN 自适应技术。本书更加细致地讨论了搭建真实世界实时语音识别系统时的注意事项、技巧、配置、深层模型的加速以及其他相关技

术。为了更好地介绍基础背景,本书有两章讨论了 GMM 与 HMM 的相关内容。然而由于本书的主题是深度学习以及层次性建模,因而我们略过了 GMM-HMM的技术细节。所以本书是上面罗列参考书籍的补充,而不是替代。我们相信本书将有益于语

音处理及机器学习领域的在读研究生、研究者、实践者、工程师以及科学家的学习研

究工作。我们希望,本书在提供领域内相关技术的参考以外,能够激发更多新的想法

与创新,进一步促进 ASR 的发展。

在本书的撰写过程中,Alex Acero、Geoffrey Zweig、Qiang Huo、Frank Seide、Jasha Droppo、Mike Seltzer 以及 Chin-Hui Lee 都提供了大量的支持与鼓励。同时,我们也要感谢 Springer的编辑 Agata Oelschlaeger以及 Kiruthika Poomalai,他们的耐心和及时的帮助使得本书能够顺利出版。

美国华盛顿西雅图 俞栋

2014 年 7 月 邓力

v

Page 6: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

vii

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

第 1章 介绍1.1 自动语音识别:更好的沟通之桥 1

1.2 语音识别系统的基本结构 3

1.3 全书结构 5

第一部分 传统声学模型 9

第 2章 混合高斯模型 102.1 随机变量 10

2.2 高斯分布和高斯混合随机变量 11

2.3 参数估计 13

2.4 采用混合高斯分布对语音特征建模 15

第 3章 隐马尔可夫模型及其变体 173.1 介绍 18

3.2 马尔可夫链 19

3.3 序列与模型 20

3.4 期望最大化(EM)算法及其在学习HMM参数中的应用 27

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络 434.1 深度神经网络框架 43

4.2 使用误差反向传播来进行参数训练 46

4.3 实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

viii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

第 1章 介绍1.1 自动语音识别:更好的沟通之桥 1

1.2 语音识别系统的基本结构 3

1.3 全书结构 5

第一部分 传统声学模型 9

第 2章 混合高斯模型 102.1 随机变量 10

2.2 高斯分布和高斯混合随机变量 11

2.3 参数估计 13

2.4 采用混合高斯分布对语音特征建模 15

第 3章 隐马尔可夫模型及其变体 173.1 介绍 18

3.2 马尔可夫链 19

3.3 序列与模型 20

3.4 期望最大化(EM)算法及其在学习HMM参数中的应用 27

第 1章 介绍1.1 自动语音识别:更好的沟通之桥 1

1.2 语音识别系统的基本结构 3

1.3 全书结构 5

第一部分 传统声学模型 9

第 2章 混合高斯模型 102.1 随机变量 10

2.2 高斯分布和高斯混合随机变量 11

2.3 参数估计 13

2.4 采用混合高斯分布对语音特征建模 15

第 3章 隐马尔可夫模型及其变体 173.1 介绍 18

3.2 马尔可夫链 19

3.3 序列与模型 20

3.4 期望最大化(EM)算法及其在学习HMM参数中的应用 27

第 1章 介绍 11.1 自动语音识别:更好的沟通之桥 1

1.2 语音识别系统的基本结构 3

1.3 全书结构 5

第一部分 传统声学模型 9

第 2章 混合高斯模型 102.1 随机变量 10

2.2 高斯分布和高斯混合随机变量 11

2.3 参数估计 13

2.4 采用混合高斯分布对语音特征建模 15

第 3章 隐马尔可夫模型及其变体 173.1 介绍 18

3.2 马尔可夫链 19

3.3 序列与模型 20

3.4 期望最大化(EM)算法及其在学习HMM参数中的应用 27

Page 7: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

vii

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

第 1章 介绍1.1 自动语音识别:更好的沟通之桥 1

1.2 语音识别系统的基本结构 3

1.3 全书结构 5

第一部分 传统声学模型 9

第 2章 混合高斯模型 102.1 随机变量 10

2.2 高斯分布和高斯混合随机变量 11

2.3 参数估计 13

2.4 采用混合高斯分布对语音特征建模 15

第 3章 隐马尔可夫模型及其变体 173.1 介绍 18

3.2 马尔可夫链 19

3.3 序列与模型 20

3.4 期望最大化(EM)算法及其在学习HMM参数中的应用 27

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络 434.1 深度神经网络框架 43

4.2 使用误差反向传播来进行参数训练 46

4.3 实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

viii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

vii

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

第 1章 介绍1.1 自动语音识别:更好的沟通之桥 1

1.2 语音识别系统的基本结构 3

1.3 全书结构 5

第一部分 传统声学模型 9

第 2章 混合高斯模型 102.1 随机变量 10

2.2 高斯分布和高斯混合随机变量 11

2.3 参数估计 13

2.4 采用混合高斯分布对语音特征建模 15

第 3章 隐马尔可夫模型及其变体 173.1 介绍 18

3.2 马尔可夫链 19

3.3 序列与模型 20

3.4 期望最大化(EM)算法及其在学习HMM参数中的应用 27

第 1章 介绍1.1 自动语音识别:更好的沟通之桥 1

1.2 语音识别系统的基本结构 3

1.3 全书结构 5

第一部分 传统声学模型 9

第 2章 混合高斯模型 102.1 随机变量 10

2.2 高斯分布和高斯混合随机变量 11

2.3 参数估计 13

2.4 采用混合高斯分布对语音特征建模 15

第 3章 隐马尔可夫模型及其变体 173.1 介绍 18

3.2 马尔可夫链 19

3.3 序列与模型 20

3.4 期望最大化(EM)算法及其在学习HMM参数中的应用 27

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章 深度神经网络 434.1 深度神经网络框架 43

4.2 使用误差反向传播来进行参数训练 46

4.3 实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统 816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速 977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练 1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习 1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

Page 8: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

vii

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

第 1章 介绍1.1 自动语音识别:更好的沟通之桥 1

1.2 语音识别系统的基本结构 3

1.3 全书结构 5

第一部分 传统声学模型 9

第 2章 混合高斯模型 102.1 随机变量 10

2.2 高斯分布和高斯混合随机变量 11

2.3 参数估计 13

2.4 采用混合高斯分布对语音特征建模 15

第 3章 隐马尔可夫模型及其变体 173.1 介绍 18

3.2 马尔可夫链 19

3.3 序列与模型 20

3.4 期望最大化(EM)算法及其在学习HMM参数中的应用 27

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络 434.1 深度神经网络框架 43

4.2 使用误差反向传播来进行参数训练 46

4.3 实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

viii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

viii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型 186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

Page 9: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

vii

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

第 1章 介绍1.1 自动语音识别:更好的沟通之桥 1

1.2 语音识别系统的基本结构 3

1.3 全书结构 5

第一部分 传统声学模型 9

第 2章 混合高斯模型 102.1 随机变量 10

2.2 高斯分布和高斯混合随机变量 11

2.3 参数估计 13

2.4 采用混合高斯分布对语音特征建模 15

第 3章 隐马尔可夫模型及其变体 173.1 介绍 18

3.2 马尔可夫链 19

3.3 序列与模型 20

3.4 期望最大化(EM)算法及其在学习HMM参数中的应用 27

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络 434.1 深度神经网络框架 43

4.2 使用误差反向传播来进行参数训练 46

4.3 实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiivii

目录

序言 ii

术语缩写 xi

符号 xvi

第一章 介绍 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

第一部分 传统声学模型 8

第二章 混合高斯模型 9

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5 用于解码HMM状态序列的维特比(Viterbi)算法 33

3.6 隐马尔可夫模型和生成语音识别模型的变体 36

第二部分 深度神经网络 42

第 4章深度神经网络434.1 深度神经网络框架 43

4.2使用误差反向传播来进行参数训练 46

4.3实际应用 52

第 5章 高级模型初始化技术 635.1 受限玻尔兹曼机 63

5.2 深度置信网络预训练 72

5.3 降噪自动编码器预训练 75

5.4 鉴别性预训练 77

5.5 混合预训练 77

5.6 采用丢弃法的预训练 78

第三部分语音识别中的深度神经网络 -隐马尔可夫混合模型 80

第 6章 深度神经网络 -隐马尔可夫模型混合系统816.1 深度神经网络 - 隐马尔可夫模型混合系统 81

6.2 CD-DNN-HMM的关键模块及分析 88

6.3 基于KL距离的隐马尔可夫模型 95

第 7章 训练和解码的加速977.1 训练加速 97

7.2 加速解码 107

第 8章 深度神经网络序列鉴别性训练1168.1 序列鉴别性训练准则 116

8.2 具体实现中的考量 121

8.3 噪声对比估计 127

第四部分深度神经网络中的特征表示学习 133

第 9章 深度神经网络中的特征表示学习1349.1 特征和分类器的联合学习 134

9.2 特征层级 135

9.3 使用随意输入特征的灵活性 139

9.4 特征的鲁棒性 140

9.5 对环境的鲁棒性 144

目录

2.2 高斯分布和高斯混合随机变量 . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . 14

第三章 隐马尔可夫模型及其变体 16

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 期望最大化(EM)算法及其在学习 HMM 参数中的应用 . . . . . . . . 26

3.5 用于解码 HMM 状态序列的维特比(Viterbi)算法 . . . . . . . . . . . 32

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . 35

第二部分 深度神经网络 41

第四章 深度神经网络 42

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . 45

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第五章 高级模型初始化技术 62

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii

目录

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 79

第六章 深度神经网络-隐马尔可夫模型混合系统 80

6.1 深度神经网络-隐马尔可夫模型混合系统 . . . . . . . . . . . . . . . . . 80

6.2 CD-DNN-HMM 的关键模块及分析 . . . . . . . . . . . . . . . . . . . . 87

6.3 基于 KL 距离的隐马尔可夫模型 . . . . . . . . . . . . . . . . . . . . . . 94

第七章 训练和解码的加速 96

7.1 训练加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 加速解码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

第八章 深度神经网络序列鉴别性训练 114

8.1 序列鉴别性训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 具体实现中的考量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.3 噪声对比估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

第四部分 深度神经网络中的特征表示学习 131

第九章 深度神经网络中的特征表示学习 132

9.1 特征和分类器的联合学习 . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 特征层级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 使用随意输入特征的灵活性 . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4 特征的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 对环境的鲁棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

9.6 缺乏严重信号失真情况下的推广能力 . . . . . . . . . . . . . . . . . . . 145

第十章 深度神经网络和混合高斯模型的融合 149

10.1 在 GMM-HMM 系统中使用由 DNN 衍生的特征 . . . . . . . . . . . . 149

10.2 识别结果融合技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

10.3 帧级别的声学分数融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

viiiviii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

viii

9.6 缺乏严重信号失真情况下的推广能力 147

第 10章 深度神经网络和混合高斯模型的融合 15110.1 在GMM-HMM系统中使用由DNN衍生的特征 151

10.2 识别结果融合技术 156

10.3 帧级别的声学分数融合 160

10.4 多流语音识别 161

第 11章 深度神经网络的自适应技术 16411.1 深度神经网络中的自适应问题 164

11.2 线性变换 166

11.3 线性隐层网络 169

11.4 保守训练 170

11.5 子空间方法 175

11.6 DNN说话人自适应的效果 181

第五部分先进的深度学习模型186

第 12 章 深度神经网络中的表征共享和迁移 18712.1 多任务和迁移学习 187

12.2 多语言和跨语言语音识别 189

12.3 语音识别中深度神经网络的多目标学习 197

12.4使用视听信息的鲁棒语音识别 200

第 13章 循环神经网络及相关模型 20213.1 介绍 203

13.2 基本循环神经网络中的状态 - 空间公式 204

13.3 沿时反向传播学习算法 205

13.4 一种用于学习循环神经网络的原始对偶技术 209

13.5 结合长短时记忆单元(LSTM)的循环神经网络 215

13.6 循环神经网络的对比分析 217

13.7 讨论 223

第 14章 计算型网络 22614.1 计算型网络 226

14.2 前向计算 227

14.3 模型训练 230

14.4 典型的计算节点 235

14.5 卷积神经网络 250

14.6 循环连接 253

ix

第 15章 总结及未来研究方向 26015.1 路线图 260

15.2 技术前沿和未来方向 268

Page 10: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

1介绍

摘要 自动语音识别(Automatic speech recognition,ASR)技术是使人与人、人与机器更顺畅交流的关键技术。在本章中,我们将介绍语音识别 (语音识别) 系统的主要应用场景,简述其基本设计。最后会介绍全书结构。

自动语音识别:更好的沟通之桥

自动语音识别(Automatic Speech Recognition,ASR)这个研究领域已经活跃了五十多年。一直以来,这项技术都被当作是可以使人与人、人与机器更顺畅交流的桥

梁。然而,语音在过去并没有真正成为一种重要的人机交流的形式,这一部分是缘于

当时技术的落后,语音技术在大多数实际用户实际使用的场景下还不大可用。另一部

分原因是很多情况下使用键盘鼠标这样的形式交流比语音更有效、更准确,约束更小。

语音技术在近年开始渐渐改变起我们的生活和工作方式。对某些设备来说,语音

成了人与之交流的主要方式。这种趋势的出现和下面提到的几个关键领域的进步是分

不开的。首先,摩尔定律持续有效。有了多核处理器、通用计算图形处理器(generalpurpose graphical processing units,GPGPUs)、CPU/GPU 集群这样的技术,今天可用的计算力仅仅相比十几年前就多了几个量级。这使得训练更加强大而复杂的模型

变得可能。正是这些更消耗计算能力的模型(同时也是本书的主题),显著地降低了

语音识别系统的错误率。其次,借助越来越先进的互联网和云计算,我们得到了比先

前多得多的数据资源。使用从真实使用场景收集的大数据进行模型训练的话,我们先

Page 11: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

解析深度学习:语音识别实战

前做的很多模型假设都不再需要了,这使得系统更加鲁棒。最后,移动设备、可穿戴

设备、智能家居设备、车载信息娱乐系统正变得越来越流行。在这些设备和系统上,

以往鼠标、键盘这样的交互方式不再延续像用在电脑上一样的便捷性了。而语音作为

人类之间自然的交流方式,作为大部分人的既有能力,在这些设备和系统上成为更受

欢迎的交互方式。

在近几年中,语音技术成为很多应用中的重要角色。这些应用可分为帮助促进人

类间的沟通(HHC)和帮助进行人机沟通(HMC)两类。

人类间的交流

语音技术可以用来消除人类之间交流的障碍。在过去,人们如果想要与不同语言

的使用者进行沟通,需要另一个人作为翻译才行。这极大地限制了人们的可选交流对

象,抑制了交流机会。例如,如果一个人不会中文,那么独自去中国旅游通常就会有

很多麻烦。而语音到语音(speech-to-speech,s2s)翻译系统其实是可以用来消除这些交流壁垒的。微软研究院最近就做过这样一个示例,可以在 [67] 找到。除了应用于旅行的人以外,s2s 翻译系统是可以整合到像 Skype 这样的一些交流工具中的。这样,语言不通的人也可以自由地进行远程交流。图1.1列举了一个典型的 s2s翻译系统的核心组成模块,可以看到,语音识别是整个流水线中的第一环。

图 1.1: 典型的语音到语音翻译系统的组成模块

除此之外,语音技术还有其他形式可以用来帮助人类间的交流。例如,在统一消

息系统(unified messaging system)中,消息发送者(caller)的语音消息可以通过语音转写子系统转换为文本消息,文本消息继而通过电子邮件、即时消息或者短信的方

式轻松地发送给接收者来方便地阅读。再如,给朋友发短信时,利用语音识别技术进

行输入可以更便捷。语音识别技术还可以用来将演讲和课程内容进行识别和索引,使

用户能够更轻松地找到自己感兴趣的信息。

人机交流

语音技术可以极大地提升人机交流的能力,其中最流行的应用场景包括语音搜

索、个人数码助理、游戏、起居室交互系统和车载信息娱乐系统:

• 语音搜索(voice search, VS)[400, 435, 452] 使用户可以直接通过语音来搜索餐

2

Page 12: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

第 1章 介绍

馆、行驶路线和商品评价的信息。这极大简化了用户输入搜索请求的方式。目

前,语音搜索类应用在 iPhone、Windows Phone 和 Android 手机上已经非常流行。

• 个人数码助理(personal digital assistance,PDA)已经作为原型产品出现了十年,而一直到苹果公司发布了用于 iPhone 的 Siri 系统才变得流行起来。自那以后,很多公司发布了类似的产品。PDA 知晓你移动设备上的信息,了解一些常识,并记录了用户与系统的交互历史。有了这些信息后,PDA 可以更好地服务用户。比如可以完成拨打电话号码,安排会议,回答问题和音乐搜索等工作。

而用户所需要做的只是直接向系统发起语音指令即可。

• 在融合语音技术以后,游戏的体验将得到很大的提升。例如,在一些微软 Xbox的游戏中,玩家可以和卡通角色对话以询问信息或者发出指令。

• 起居室交互系统和车载信息娱乐系统 [361] 在功能上十分相似。这样的系统允许用户使用语音与之交互,用户通过他们来播放音乐,询问信息或者控制系统。

当然,由于这些系统的使用条件不同,设计这样的系统时会遇到不同的挑战。

在本节中,所有的应用场景和系统讨论的都是语音对话系统 (spoken language sys-tem)[207] 的例子。如图1.2所示,语音对话系统通常包括下面四个主要组成部分的一个或多个:语音识别系统将语音转化为文本;语义理解系统提取(finds)用户说话的语义信息;文字转语音系统将内容转化为语音;对话管理系统连接其他三个系统并完

成与实际应用场景的沟通。所有这些部分对于建立一个成功的语音对话系统都是很关

键的。在本书中,我们只关注语音识别部分。

图 1.2: 语音对话系统的组成

语音识别系统的基本结构

图1.3中展示的是语音识别系统的典型结构,语音识别系统主要由图中的四部分组成:信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。

3

Page 13: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

解析深度学习:语音识别实战

信号处理和特征提取部分以音频信号为输入,通过消除噪声和信道失真对语音进

行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征

向量。声学模型将声学和发音学(phonetics)的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。语言模型估计通过从训练语

料(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能性,又叫语

言模型分数。如果了解领域或任务相关的先验知识,语言模型分数通常可以估计得更

准确。解码搜索对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模

型分数,将总体输出分数最高的词序列当作识别结果。在本书中,我们主要关注声学

模型。

关于声学模型有两个主要问题,分别是特征向量序列的可变长和音频信号的多

变性。可变长特征向量序列的问题在学术上通常由如动态时间规整(dynamic timewarping,DTW)方法和将在第三章描述的隐马尔可夫模型(HMM)[327] 方法来解决。音频信号的多变性(variable)是由说话人的各种复杂的特性(如性别、健康状况或紧张程度)交织,或是说话风格与速度、环境噪声、周围人声(side talks)、信道扭曲(channel distortion)(如麦克风间的差异)、方言差异、非母语口音(non-nativeaccents)引起的。一个成功的语音识别系统必须能够应付所有这类声音的变化因素。

图 1.3: 语音识别系统的架构

像我们在第节中讨论的那样从特定领域任务向真实应用转变时,会遇到一些困

难。如图1.4所示,一个时下实际的语音识别系统需要处理大词汇(数百万)、自由式对话,带噪声的远场自发语音和多语言混合的问题。

在过去,最流行的语音识别系统通常使用梅尔倒谱系数(mel-frequency cepstralcoefficient,MFCC)[75] 或者“相对频谱变换——感知线性预测”(perceptual linearprediction,RASTA-PLP)[184] 作为特征向量,使用高斯混合模型-隐马尔可夫模型(Gaussian mixture model-HMM,GMM-HMM)作为声学模型。在 20 世纪 90 年代

4

Page 14: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

第 1章 介绍

图 1.4: 由于有了真实世界任务的需求,当今的我们正在解决的语音识别相关的问题(最右列)比我们过去已经解决的问题要难得多

的时候,最大似然准则(maximum likelihood,ML)被用来训练这些 GMM-HMM声学模型。到了 21 世纪,序列鉴别性训练算法(sequence discriminative trainingalgorithms)如最小分类错误(minimum classification error,MCE)[221] 和最小音素错误(minimum phone error,MPE)[322] 等准则被提了出来,并进一步提高了语音识别的准确率。

在近些年中,分层鉴别性模型(discriminative hierarchical models)例如深度神经网络(deep neural networks,DNNs)[73, 190] 依靠不断增长的计算力,大规模数据集的出现和人们对模型本身更好的理解,变得可行起来。它们显著地减小了错

误率。举例来说,上下文相关的深度神经网络-隐马尔可夫模型(context-dependentDNN-HMM,CD-DNN-HMM)与传统的使用序列鉴别准则(sequence discriminativecriteria)[358] 训练的 GMM-HMM 系统相比,在 Switchboard 对话任务上减少了三分之一的错误率。

在本书中,我们将介绍这些分层鉴别性模型的最新研究进展,包括深度神经网

络(DNN)、卷积神经网络(convolutional neural network,CNN)和循环神经网络(recurrent neural network,RNN)。我们将讨论这些模型的理论基础和使得系统能够正常工作的实践技巧。由于我们对自己所做的工作比较熟悉,本书主要着眼于我们自

己的工作,当然,在需要的时候也会涉及其他研究者的相关研究。

全书结构

本书由五部分组成,在第一部分中,我们主要介绍传统的 GMM-HMM 系统和相关的数学模型和变体(variantes)。内容主要提取自一些成书,如 [108, 206, 328] 和来自 [208, 326] 的教学材料。第二部分介绍了 DNN,包括其初始化和训练算法。第

5

Page 15: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

解析深度学习:语音识别实战

三部分讨论了语音识别中的 DNN-HMM 混合系统、提高 DNN 的训练和计算速度的技巧,以及序列鉴别性训练算法。第四部分从联合表征学习和模型优化的视角描述

了 DNN。在这个视角下,我们介绍了语音识别中的 tandem 系统和 DNN 的自适应技术。第五位部分涉及一些高级模型,如多语言 DNN、循环神经网络和计算型网络(computational networks)。我们在第十五章总结了整本书,概述了基于深度学习的语音识别系统发展中的一些关键里程碑,并给出了我们对未来语音识别研究方向的

思考。

与我们最近一本书 [121] 相比,这一本书更深入地介绍了在语音识别这个特定领域下的那些出色的技术,而没有太多扩展到其他深度学习的应用场景。

第一部分:传统声学模型

第二章和第三章介绍传统的混合高斯模型-隐马尔可夫(GMM-HMM)声学模型的基本理论基础。这两章将有助于你理解后面介绍的分层鉴别性模型。

第二章讨论的是混合高斯模型,最大似然准则和期望最大化算法 [296]。第三章介绍了在现代语音识别系统中有最杰出贡献的隐马尔可夫模型。我们介绍了 HMM是如何处理可变长度信号序列的,并描述了前向后向训练算法(forward-backwardalgorithm)和维特比解码(viterbi decoding)算法。在本书着重讲述的上下文相关的深度神经网络-隐马尔可夫模型(CD-DNN-HMM)系统流行起来以前,GMM-HMM构成了现代语音识别系统的基础。

第二部分:深度神经网络

第四和第五章详细介绍深度神经网络。重点介绍在构建真实系统时被证明有效的

技术,并从理论和实践的角度解释了这些技术是为什么工作和是如何工作的。

第四章介绍深度神经网络、著名的反向传播算法(back-propagation)[246, 336]和迅速有效训练一个 DNN 的各种实践技巧。第五章讨论了高级的 DNN 初始化技术,包括生成性预训练和鉴别性预训练 [357]。我们主要讨论受限玻尔兹曼机 [188](restricted Boltzmann machine,RBM)和带噪自动编码器(noisy auto-encoder)[32],以及它们两个之间的关系。

6

Page 16: 译者序 - microsoft.com · 以来,每个时代都有经典的创新成果。如20 世纪80 年代的n 元组语言模型,20 世 纪90 年代的hmm 状态绑定和自适应技术,21

第 1章 介绍

第三部分:语音识别中的 DNN-HMM 混合系统

从第六章到第八章,我们继续讨论在语音识别中如何有效地将 DNN 和 HMM 融合起来。

第六章描述了 DNN-HMM混合系统 [73],其中,HMM被用来对声音信号的序列属性进行建模,DNN 为 HMM 中的发射概率(emission probabilities)建模。第七章讨论了实践中可以提高 DNN-HMM 系统训练、解码速度的技巧。第八章讨论的是可以进一步提高 DNN-HMM 混合系统识别准确率的序列鉴别性训练算法(sequence-discriminative training algorithms)。

第四部分:深度神经网络中的表征学习

在第九章到第十一章中,我们换用一个不同的角度去观察 DNN,并从这个新的角度讨论了有哪些其他的方式可以在语音识别中使用 DNN。

第九章从联合特征学习和模型优化的角度讨论 DNN。我们认为 DNN 可以在任意隐层分开,其下面的所有层可以被认为是特征变换,其上所有的层可以认为是分类

模型。第十章介绍了 tandem 结构和瓶颈特征,DNN 在其中充当一个单独的特征提取器,为传统的 GMM-HMM 提供特征。第十一章介绍了针对 DNN 的自适应技术。

第五部分:高级的深度模型

第十二章到第十四章,我们介绍了几个高级的深度模型。在第十二章中,我们描

述了基于 DNN 的多任务和转移学习,其中,特征表示在相关的任务中是共享的,并可以跨任务转移使用。我们以使用了共享隐层的 DNN 结构的多语言和跨语言情况下的语音识别作为主要例子来展示这些技术。在第十三章,我们举例说明了语音识别中

的循环神经网络,包括长短时记忆单元神经网络。在第十四章,我们介绍了计算型网

络(computational network)——一种可以表述任意学习机的统一框架,它可以统一描述深度神经网络、卷积神经网络,包含长短时记忆单元的循环神经网络、逻辑回归

和最大熵等模型。

7