语音识别理论与实践

-
【作 者】主编 莫宏伟
【I S B N 】978-7-5226-1902-6
【责任编辑】高辉
【适用读者群】本科
【出版时间】2023-11-23
【开 本】16开
【装帧信息】平装(光膜)
【版 次】第1版第1次印刷
【页 数】188
【千字数】257
【印 张】11.75
【定 价】¥42
【丛 书】普通高等教育人工智能专业系列教材
【备注信息】
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
内 容 提 要
本书主要介绍语音识别原理及其相关应用。全书共9章,分为五大部分:第一部分(第1章)介绍语音识别的发展历史和语音识别领域常用的数据集与工具箱;第二部分(第2章)介绍在语音识别领域常用的语音信号基础知识和声学特征的提取;第三部分(第3章至第7章)详细介绍语音识别的声学模型、语言模型、解码工具,并对语音识别领域的研究热点(端到端语音识别)进行探讨;第四部分(第8章)利用语音识别开源工具包Kaldi进行语音识别实战,包括Kaldi的安装以及如何训练aishell语音识别工程;第五部分(第9章)结合序列到序列的语音识别模型和序列到序列的问答模型来构建语音交互系统。
本书既可作为计算机科学与技术、电子科学与技术、控制工程与科学、智能科学与技术等专业的本科教材和研究生教材,也可供从事语音识别、人工智能等研究的科研人员参考。
精选内容 系统介绍语音识别原理及相关应用,突出研究热点。
配合实战 结合语音识别模式和问答模型构建语音交互系统,理论结合实践。
配套资源 配有微课视频,读者可扫码观看学习。
前 言
随着科技的发展和社会的进步,人工智能产品已经广泛应用于各个领域,其中语音识别技术得到了广泛应用。语音识别是一种将语音信号转化为可识别的文本形式的技术,其研究领域包括声音特征提取、语音识别、自然语言理解等多个方面。
语音识别技术在现代医疗中也得到了广泛应用。医疗工作者需要对患者的语音信息进行分析,以便对病情进行诊断和治疗。利用语音识别技术,可以快速准确地将语音信息转换为文本,为医护人员提供更高效、更便捷的工作方式。
通过搭建神经网络和利用深度学习算法,人工智能系统可以对大量的语音信号进行训练以获得准确识别语音的能力。医疗工作者可以通过语音识别技术对患者的语音信息进行分析,以获得关键的医疗数据。这种技术可以大大提高医护人员的工作效率和诊疗质量。
在医疗领域,语音识别技术也被用于智能医疗助理、医疗记录、药品管理等方面。医护人员可以通过语音命令快速地完成医疗记录和药品管理等任务,提高医疗工作的效率和准确性。
随着语音技术的不断提升,语音识别在机器人领域也逐渐开始发挥重要作用。将人工智能技术与语音识别技术相结合可以实现智能语音交互,使机器人能够更好地理解人类语言,并且能够进行语音指令的识别、理解和响应。这种技术不仅能够提高机器人的使用体验,还能够降低用户对使用机器人的技术门槛,同时能够在一定程度上减少人类操作机器人的误操作问题。
此外,利用语音识别技术还可以实现自然语言的语音合成,使机器人能够通过语音向用户提供反馈信息。这种技术不仅可以提高机器人的交互能力,而且可以增加机器人与人类之间的情感联系。
本书是在作者近三年围绕用于移动机器人的语音识别技术所开展的相关研究和开发工作基础上编写而成的,首先介绍了语音识别的发展历史和语音识别领域常用数据集与工具箱;其次介绍了在语音识别领域常用的语音信号基础知识和声学特征的提取;随后介绍了语音识别的声学模型、语言模型、解码工具,并对语音识别领域的研究热点(端到端语音识别)进行探讨;最后利用语音识别开源工具包Kaldi进行语音识别实战,包括Kaldi的安装以及如何训练aishell语音识别工程,结合序列到序列的语音识别模型和序列到序列的问答模型来构建可用于移动机器人的语音交互系统。
本书在介绍主要知识和方法后提供了适量的习题,使读者不仅能掌握一些初级的知识和方法,还能进一步掌握语音识别原理及相关技术,加深理解。
本书由莫宏伟任主编,徐立芳任副主编。感谢袁志龙、闫景运、周红亮、郭子颖、温峰、张圣胤、张茜、胡家家等同学在内容编写和图片绘制方面提供的协助。
由于编者水平所限,书中难免存在不妥甚至错误之处,恳请读者批评指正。
编 者
2023年5月
前言
第1章 绪论 1
1.1 语音识别简史 2
1.1.1 语音识别早期探索 2
1.1.2 概率模型一统江湖 2
1.1.3 神经网络异军突起 3
1.1.4 商业应用推波助澜 5
1.2 国内发展现状 6
1.3 语音识别框架 9
1.3.1 经典方法 9
1.3.2 概率模型 10
1.3.3 深度神经网络—隐马尔可夫(DNN-HMM)模型 12
1.3.4 端到端语音识别 12
1.4 开源工具与数据集 14
1.4.1 深度学习框架 14
1.4.2 开源工具 19
1.4.3 数据集 19
本章小结 19
课后习题 20
第2章 语音基础知识 21
2.1 语音信号基础 21
2.1.1 声波的特性 22
2.1.2 声音的采集装置 22
2.1.3 声音的采样 24
2.1.4 声音的量化 25
2.1.5 语音的编码 26
2.2 声学特征提取 29
2.2.1 预处理 29
2.2.2 傅里叶变换 30
2.2.3 听觉特性 31
2.2.4 线性预测 32
2.2.5 倒谱分析 33
2.2.6 声学特征 34
本章小结 36
课后习题 36
第3章 声学模型 37
3.1 高斯混合模型 38
3.1.1 概率统计 38
3.1.2 高斯分布 39
3.1.3 GMM的组成和表示 40
3.2 隐马尔可夫模型 43
3.2.1 隐马尔可夫模型基本概念 43
3.2.2 隐马尔可夫模型的定义 45
3.2.3 隐马尔可夫模型的三个基本问题 46
3.3 高斯混合模型—隐马尔可夫模型 52
3.4 基于隐马尔可夫模型的语音识别 55
3.4.1 建模单元 55
3.4.2 发音过程与隐马尔可夫模型状态 57
3.4.3 串接隐马尔可夫模型 58
本章小结 61
课后习题 61
第4章 语言模型 62
4.1 n-gram模型 64
4.2 评价指标 67
4.3 平滑技术 68
4.3.1 Good-Turing折扣法 68
4.3.2 Jelinek-Mercer插值法 69
4.3.3 Kneser-Ney插值法 69
4.3.4 Katz回退法 70
4.4 语言模型的训练 72
4.5 预训练语言模型 74
4.5.1 基于自回归语言模型的预训练技术 76
4.5.2 基于自编码语言模型的预训练技术 78
4.5.3 基于序列到序列语言模型的预训练技术 79
4.5.4 基于前缀语言模型的预训练技术 80
4.5.5 基于排列语言模型的预训练技术 82
4.5.6 预训练技术的改进方法 83
本章小结 84
课后习题 84
第5章 加权有限状态解码器 85
5.1 基于动态网络的Viterbi解码 86
5.2 加权有限状态转换器理论 89
5.2.1 基本概念 89
5.2.2 半环 93
5.3 HCLG构建 95
5.3.1 语料准备 95
5.3.2 构建语法模型 96
5.3.3 构建发音词典模型 97
5.3.4 合并发音词典与语法模型 99
5.3.5 构建上下文模型与发音词典模型和语法模型 100
5.3.6 构建HCLG 100
本章小结 101
课后习题 102
第6章 深度神经网络模型 103
6.1 深度学习 104
6.2 神经网络 105
6.2.1 人脑神经网络 105
6.2.2 人工神经网络 107
6.2.3 神经网络的发展历史 107
6.2.4 深度神经网络 109
6.3 正向学习过程 111
6.3.1 正向学习概述 112
6.3.2 正向传播的流程 112
6.3.3 正向传播的原理 113
6.4 反向调整过程 115
6.4.1 反向调整概述 115
6.4.2 反向传播过程详解 116
6.4.3 深层模型反向调整的问题与对策 117
6.5 神经网络结构 118
6.5.1 卷积神经网络 118
6.5.2 长短时记忆网络 121
6.5.3 门控循环单元 123
6.5.4 时延神经网络 123
本章小结 125
课后习题 125
第7章 端到端语音识别 126
7.1 CTC 127
7.2 RNN-T 130
7.3 Encoder-Decoder框架和Attention模型 131
7.4 Hybrid CTC/Attention 136
7.5 Transformer 137
本章小结 139
课后习题 139
第8章 Kaldi实战 140
8.1 下载与安装Kaldi 141
8.1.1 获取源代码 141
8.1.2 编译 141
8.2 创建与配置基本的工程目录 142
8.3 aishell语音识别工程 143
8.3.1 数据映射目录准备 143
8.3.2 词典准备和lang目录生成 145
8.3.3 语言模型训练 147
8.3.4 声学特征提取与倒谱均值归一化 148
8.3.5 声学模型训练与强制对齐 149
8.3.6 解码测试与指标计算 151
本章小结 152
课后习题 153
第9章 语音交互系统 154
9.1 语音识别模块 154
9.1.1 LAS 155
9.1.2 Transformer 156
9.1.3 数据分析 157
9.1.4 LAS模型对比实验 159
9.1.5 Focal loss 161
9.2 基于序列到序列模型的问答系统 164
9.2.1 数据分析 164
9.2.2 词向量 165
9.2.3 模型设计 166
9.2.4 实验结果与分析 170
9.3 语音交互系统的构建 171
9.3.1 系统搭建 171
9.3.2 系统测试 173
本章小结 174
课后习题 175
参考文献 176
附录 课后习题答案 178
- 嵌入式人工智能技术应用(数字教材) [主编 胡娜 杨国勇 晏廷荣]
- Java Web项目化设计实践教程 [邱云 曾陈萍]
- 人工智能开发框架应用 [主编 王明超 芦娅云]
- 民航客舱服务实用英语教程 [主编 田静 徐亚玲]
- Python数据分析 [主编 冯志辉 赵磊 李放]
- 大学信息技术 [曾翰颖 编著]
- 多维视域下的高校篮球教学创新研究 [张利超 李宁 著]
- 创新创业训练实践教程 [主编 王日华 陈武 黄喆诚]
- 实用运筹学 [主编 邢育红 于晋臣]
- 电子技术(第二版) [主编 覃爱娜 李飞]
- 劳动争议处理实务 [主编 王秀卿 罗静]
- 工程数学 [主编 郭立娟 王海]
- 武术基础教程 [主编 李代勇 谢志民]
- 计算机网络实训教程 [主编 张浩军 赵玉娟]
- 画法几何与机械制图习题集(多学时) [主编 赵军]
- 电工电子技术基础 [主编 刘 军 杨国龙 刘天成]
- MySQL数据库项目式教程 [陈亚峰]
- 机械设计基础(第二版) [主编 田亚平 李爱姣]
- 画法几何与机械制图 [主编 赵军]
- C语言程序设计习题与实验指导(第二版) [主编 甄增荣 张宾]
- C语言程序设计(第二版) [主编 甄增荣 田云霞]
- Unity3D虚拟现实应用开发实践 [主 编 刘龙]
- 智能化技术基础(第三版) [邓文达 李礼]
- 面向对象程序设计 [主编 张勇 张平华 赵小龙]
- 网络营销 [主编 夏薇薇 刘婷 尚洁]
- 电视节目策划与制作(微课版) [主 编 黄滴滴]
- 数据库技术与应用实践教程(SQL Server 2019) [主 编 严晖 周肆清]
- 大学应用数学 [主编 郭立娟]
- 工业机器人拆装与调试 [主编 胡月霞 向艳芳 朱奇]
- 功能材料制备与表征实验指导书 [龚伟平 赵军峰 梅海娟 等编著]