面向蒙古语的语音识别声学建模研究

发布时间:2017-12-07 14:05

  本文关键词:面向蒙古语的语音识别声学建模研究


  更多相关文章: 蒙古语 声学建模 模型拓扑结构 问题集 区分性训练 自适应训练


【摘要】:自动语音识别是具有巨大应用价值和广阔应用前景的人机交互技术,而声学建模则是创建语音识别系统的关键环节与核心技术,也是语音识别研究的重点和热点之一。本文对蒙古语语音识别声学建模相关的若干问题进行了深入的探索和研究。目前,在国际信息化浪潮的推动下,蒙古族自治区域正在快速步入信息化社会。在这种历史背景和条件下,开展本文的研究工作,不仅具有重要的学术价值,而且具有积极深远的社会现实意义,它必将有益于广大蒙古族同胞生活、学习、工作自动化程度的提高,必将有益于蒙古族自治区域信息化水平的提升。本文研究工作在蒙古语语音识别声学建模的模型选择、相关支持技术以及参数估计等三个基本问题方面均有所涉及,具体研究内容和创新点如下:1.蒙古语声学模型拓扑结构优化模型选择方面,针对当前创建蒙古语语音识别系统时只能采用经验式或启发式方法选择较大建模对象(指其读音由两个或两个以上的音子构成的建模对象)声学模型拓扑结构的情形,本文提出了分别基于标准遗传算法和标准粒群优化算法的两个蒙古语较大建模对象声学模型拓扑结构优化算法,并给出了算法实现相关问题的解决方案和高斯核非均匀分配系统的训练策略。与以往的进化方法在其它语言语音识别领域中的类似应用相比,本文算法都具备同时优化模型状态数与各状态高斯核数量、摒弃高斯核均匀分配以及自动搜索等优点。在验证和应用上述模型拓扑优化算法的实验中,与分别使用一种传统方法选择蒙古语较大建模对象声学模型拓扑结构的两组基线系统相比,利用本文算法选择蒙古语较大建模对象声学模型拓扑结构的所有语音识别系统,其识别性能均占显著优势;相对于表现最好的基线系统,分别使用本文提出的一种算法的两组拓扑优化系统,其词准确率的提升幅度分别达到了11.52个百分点和10.42个百分点。2.蒙古语声学模型状态聚类:问题集设计建模相关支持技术方面,针对目前蒙古语语音识别界亟待设计出合理、完善的蒙古语问题集以有效支持声学建模过程中基于决策树的参数绑定方法的情形,本文讨论了蒙古语问题集设计中的原则、音子集的选择、音素表的完善、复合元音的归类、松与紧概念的应用等关键问题的解决方案,给出了一个蒙古语标准音问题集,指出了该问题集相对于已有蒙古语问题集的优越性。决策树方法与数据驱动方法的多次对比实验中,利用本文蒙古语问题集的前者每次都带来了略高于后者的系统识别率,这说明本文的蒙古语问题集能够有效支持基于决策树的状态聚类与绑定方法;问题集对比实验中,本文给出的问题集的表现好于目前已公开发表的其它蒙古语问题集,这说明它的设计更加合理、更为完善。3.蒙古语声学模型区分性训练模型参数估计方面,针对蒙古语口语中的众多读音相似的音子的相互误识正在严重影响蒙古语语音识别系统的识别性能的现状,本文将通过增强模型之间的区分度提高系统识别性能的区分性训练技术首次应用在蒙古语语音识别领域中。具体地,将最大互信息、最小词错误和最小音素错误等区分性训练准则系统地应用在蒙古语声学建模任务中,设计了应用方案,解决了训练数据列表的自动调整、训练语料外三音子模型的合成、文本文件的自动生成与处理等若干技术问题,提出并实现了能够直观了解区分性训练效果的音子级解码和基于混淆矩阵的解码结果对比方案,基于区分性训练系统及其基线系统的混淆矩阵,发现和总结了蒙古语音子在语音识别过程中的元音和辅音之间很少发生误识现象、弱短元音是元音与辅音相互误识情况中的主要的元音音素、容易相互误识的辅音只有有限的若干对等误识规律。实验结果表明,各种准则的区分性训练均能使蒙古语语音识别系统的识别率得到较大幅度的提高,区分性训练系统的词准确率的提升幅度最高达到了6.44个百分点。4.蒙古语声学模型自适应训练同样在模型参数估计方面,针对基于众多说话人语料创建的蒙古语非特定人语音识别系统在交付给特定说话人使用时识别率不理想的情形,本文将通过重估模型参数使系统声学模型更具特定说话人特征的说话人自适应技术首次应用在蒙古语语音识别领域中。具体地,在设计应用方案并解决回归类树叶子结点数的设置等若干技术问题的基础上,将最大似然线性回归类算法和最大后验概率类算法系统地应用在蒙古语声学建模任务中。此外,本文还探索了说话人自适应技术的更深层次的用途:对说话人自适应算法以及它们的有效组合在蒙古语声学建模过程中的性别自适应效果进行了实验验证,并在利用说话人自适应算法进行蒙古语方言土语的自适应方面做了一些探索性的工作。实验结果表明,各种参数变换的说话人自适应算法均能使蒙古语语音识别系统的识别率得到较大幅度的提高,它们带来的词准确率的提升幅度最高达到了32.75个百分点;说话人自适应技术在蒙古语声学建模中具有很好的性别自适应效果,性别自适应带来的词准确率的提升幅度最高达到了47.08个百分点;在不受性别自适应影响的情况下,只对声学模型的高斯核均值向量进行调整的说话人自适应算法和算法组合具有使标准音蒙古语语音识别系统的针对鄂尔多斯土语的识别率得到有效提高的方言自适应能力,它们带来的词准确率的提升幅度最高达到了7.67个百分点。
【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TN912.34

【参考文献】

中国期刊全文数据库 前6条

1 肖云鹏;叶卫平;;基于特征参数归一化的鲁棒语音识别方法综述[J];中文信息学报;2010年05期

2 刘林泉;郑方;吴文虎;;基于小数据量的方言普通话语音识别声学建模[J];清华大学学报(自然科学版);2008年04期

3 鄢志杰;胡郁;王仁华;;一种基于区分性准则的模型结构优化方法[J];中文信息学报;2008年02期

4 何珏;刘加;;汉语连续语音中HMM模型状态数优化方法研究[J];中文信息学报;2006年06期

5 李虎生,刘加,刘润生;语音识别说话人自适应研究现状及发展趋势[J];电子学报;2003年01期

6 高升,徐波,黄泰翼;基于决策树的汉语三音子模型[J];声学学报;2000年06期

中国博士学位论文全文数据库 前5条

1 飞龙;蒙古语语音关键词检测技术的研究[D];内蒙古大学;2013年

2 刘聪;声学模型区分性训练及其在LVCSR系统的应用[D];中国科学技术大学;2010年

3 鄢志杰;声学模型区分性训练及其在自动语音识别中的应用[D];中国科学技术大学;2008年

4 王霞;数学形态学在语音识别中的应用研究[D];河北工业大学;2008年

5 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年

中国硕士学位论文全文数据库 前5条

1 飞龙;蒙古语语音识别系统的研究与优化[D];内蒙古大学;2009年

2 哈斯其劳;面向语音识别的蒙古语声学模型的研究[D];内蒙古大学;2008年

3 毕力格图;基于HMM建模的蒙古语连续语音识别系统的研究与实现[D];内蒙古大学;2006年

4 萨其容贵;蒙古语语音合成技术的研究[D];内蒙古大学;2005年

5 包世恩;蒙古语非特定人大词汇量连续语音识别系统的研究与实现[D];内蒙古大学;2005年



本文编号:1262622

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1262622.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c71f8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com