基于HTK的汉语离散和连续数字语音识别研究
发布时间:2021-09-01 03:14
互联网技术不断发展,产生了许多新生技术,这些技术在互联网的带动下蓬勃发展,对社会发展起到了很大的促进作用,特别是目前市场上流行的语音交互技术,其所取得的成绩是举世瞩目。该技术可以促进机器和人进行交互,能让机器识别人的语音命令,并对语音命令做出动作的回复,这种技术也被称为语音识别系统,而该系统核心的内容就是本文研究的离散和连续数字语音识别。同时,该技术应用领域广泛,目前在很多领域包括国防、工业、通信等方面都有着密切的关联。虽然在各项研究领域中,已经存在不少关于该方面的研究,但是依旧存在很多的问题亟待解决。在以上背景下,本文研究利用HTK(Hidden Markov Model Toolkit)的结构及其工具包搭建相关系统;通过对基于HTK的汉语离散和连续语音数字识别的研究,完成了对影响系统识别率三个因素的测试,即测试了声学模型,高斯混合分量和梅尔倒谱系数。在此基础之上,再继续对语音拨号系统进行研究,最终实现了对人的名字,以及相应的电话号码的识别。在完成了以上研究的基础上,进行了优化语音识别网络的研究,通过对原识别方法的分析,导出了一种优化语音识别网络的方法,并且从理论上证明和实验上验证了...
【文章来源】:哈尔滨理工大学黑龙江省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
HTK功能模块
具体则包含了数据准备,模型训练等在内的四个步骤。其中,Tave data 和 Testing Wave data 是数据的准备阶段,模型训练阶段主CompV、HERest、HHEd 等,模型分析主要是为 HResult 部分。只有按 HTK 的语音识别系统构建起来之后,才能够真正了解其具体的体系结完成系统的搭建。详见下图 2-2。
2.5.2 ATK 原理分析及系统搭建经过对 ATK 原理进行分析,了解到基于 ATK 的语音识别系统搭建,主要从语音输入(ASource)到语音编码(ACode)再到语音的识别(ARec)最后到应用等环节入手,并结合 HMM、字典和语法来做好语音识别的相关工作,最终才能实现应用,具体如下图 2-3 所示:
本文编号:3376173
【文章来源】:哈尔滨理工大学黑龙江省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
HTK功能模块
具体则包含了数据准备,模型训练等在内的四个步骤。其中,Tave data 和 Testing Wave data 是数据的准备阶段,模型训练阶段主CompV、HERest、HHEd 等,模型分析主要是为 HResult 部分。只有按 HTK 的语音识别系统构建起来之后,才能够真正了解其具体的体系结完成系统的搭建。详见下图 2-2。
2.5.2 ATK 原理分析及系统搭建经过对 ATK 原理进行分析,了解到基于 ATK 的语音识别系统搭建,主要从语音输入(ASource)到语音编码(ACode)再到语音的识别(ARec)最后到应用等环节入手,并结合 HMM、字典和语法来做好语音识别的相关工作,最终才能实现应用,具体如下图 2-3 所示:
本文编号:3376173
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3376173.html