基于音素的语音可懂度评价方法的研究与实现

发布时间：2020-08-10 07:17

【摘要】：伴随着全球文化交流的日益频繁,人们越来越明白熟练掌握一门外语的重要性。口语训练是语言学习的基本要求,而计算机辅助发音训练系统也随之成为语音识别应用中的一个重要研究方向。对于我国英语学习者口语发音评价的重要指标之一是语音可懂度,但目前在音素级自动语音可懂度评分与人类专家评分相关性差距较大。此外,由于非母语学习者发音错误的多样性,在对学习者发音检测过程中,相似音素发音易出现混淆,传统基于概率统计的检测方法很难覆盖到所有的错误音素类型,无法准确有效地反馈音素级的纠正建议来帮助学习者提升语音可懂度水平。针对上述问题,本文首先分析了目前常用发音检测技术的特点和局限,为了解决学习者由于汉语发音习惯产生的错误发音规律性问题。本文采用一种基于音素偏误发音网络的方法对学习者发音中的错误发音的音素进行检测,并研究出一种循环随机音素识别检测方法提高音素识别正确率和准确率,并使用SVM分类器对发音错误类型进行判别分类,结合语音可懂度评价方法,为学习者反馈纠错建议。实验表明,使用本文改进的音素识别检测方法,提高了音素语音特征识别的正确率和准确率。在对学习者语音可懂度评分时,针对目前常用语音可懂度评价方法与人类专家评分相关性差距较大的问题。本文首先分析了基于AI指数、语段特征以及音素得分评价方法原理及特点。研究一种新的基于音素组合特征的语音可懂度评分方法,即通过线性组合的方式得到新的声学特征测量得分来对语音可懂度评分,并实验验证了本文语音可懂度评分方法与人类专家评分的相关性。最后本文将发音问题检测方法与语音可懂度评价方法应用于实际在线原型系统中,设计了针对非母语学习者的语音可懂度评估系统。实验测试表明,通过该系统对英语发音进行检测和纠正错误音素后,学习者语音可懂度评分有了明显提高,进一步验证本文所提方法的有效性和实用性。因此本课题在计算机辅助发音领域有着一定的参考价值和应用价值。
【学位授予单位】：北京工业大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TN912.3
【图文】：

谱图,音强,和声,谱图

并对各分类模型在语音识别中的拓展应用进行了简究所可能存在的问题以及为后续章节的研究工作做铺垫。别技术识别技术的计算机辅助发音系统（CAPT），其核心技术就，由于英语作为全球最广为流通以及普遍的语言，其学习者算机辅助英语学习也成为了当今的一大研究热点。英文发多种技术来进行研究，研究首先需要了解英语语音的一些基理学过程，并据此建立合理的模型来描述发音检测评价的过类的产生与三部分器官有关：肺部、喉咙和声道。经过声道成人们所能听到的语音。例如英文单词“breakfast”的产生st 的音强图和声谱图。

处理流程图,语音信号,处理流程,音素

音素，字母，音标都是衡量一个英语学习中的发音质量以及能否被听者正确听懂理解的重要依据。2.1.2 语音信号处理语音声学基元是声学模型构建的基础，声学基元的选择标准一般需要考虑三个标准易训练、可拓展以及高精度。目前语音识别研究中声学基元的选择大多都是词（word）、音节（syllable）、半音节（semi-syllable）以及音素（phone）等。英文语音一般选择音素作为声学基元，对于小词汇语音识别系统，通常声学基元为词。由于构成英文单词的单元是字母，而字母又是音素组成的。而与汉语的词汇发音不同，汉语大多是基于声母，韵母所构成的[25][26]。计算机首先将接收到的语音进行预处理操作，处理为语音信号之后才能进行分析。通过计算机进行预处理等操作，可以一定程度上减少因为人类本身和采集设备对语音信号质量所造成的影响。为之后的信号处理提供稳定，优质的分析参数，从而提高信号处理的质量。语音信号处理流程如图 2-2 所示。

结构图,隐马尔科夫模型,声学模型,结构图

态序列不能被直接观察到，但可以通过观察向量反映出来；对于任意给定状态，MM 模型又是一个由隐含状态决定观察值的随机过程，它会以随机概率输出相的观察向量。HMM 的随机过程与语音的形成过程类似。HMM 模型能够很好的模拟语音特性，并对应出合理的数学解析，且对随时间不断变化的语音信号有极强的建能力。HMM 模型可以用以下五组参数来进行描述，如公式 2-1 所示： { ，，，， } (2-1)其中表示 HMM 模型所包含的有限隐含状态的集合；表示每个隐状态所组的集合；表示状态之间的转移概率，可用一个矩阵来表示；为相应输出观察的概率；表示由系统初始状态概率所构成的集合。HMM 模型用作声学模型，图 2-3 为 HMM 的示意图，其具有 6 个状态的 Morkov 过程，状态 2┼5 代表间状态，两个黑圆圈分别代表入口状态 1 和出口状态 6。

【相似文献】