当前位置:主页 > 科技论文 > 网络通信论文 >

基于音素的语音可懂度评价方法的研究与实现

发布时间:2020-08-10 07:17
【摘要】:伴随着全球文化交流的日益频繁,人们越来越明白熟练掌握一门外语的重要性。口语训练是语言学习的基本要求,而计算机辅助发音训练系统也随之成为语音识别应用中的一个重要研究方向。对于我国英语学习者口语发音评价的重要指标之一是语音可懂度,但目前在音素级自动语音可懂度评分与人类专家评分相关性差距较大。此外,由于非母语学习者发音错误的多样性,在对学习者发音检测过程中,相似音素发音易出现混淆,传统基于概率统计的检测方法很难覆盖到所有的错误音素类型,无法准确有效地反馈音素级的纠正建议来帮助学习者提升语音可懂度水平。针对上述问题,本文首先分析了目前常用发音检测技术的特点和局限,为了解决学习者由于汉语发音习惯产生的错误发音规律性问题。本文采用一种基于音素偏误发音网络的方法对学习者发音中的错误发音的音素进行检测,并研究出一种循环随机音素识别检测方法提高音素识别正确率和准确率,并使用SVM分类器对发音错误类型进行判别分类,结合语音可懂度评价方法,为学习者反馈纠错建议。实验表明,使用本文改进的音素识别检测方法,提高了音素语音特征识别的正确率和准确率。在对学习者语音可懂度评分时,针对目前常用语音可懂度评价方法与人类专家评分相关性差距较大的问题。本文首先分析了基于AI指数、语段特征以及音素得分评价方法原理及特点。研究一种新的基于音素组合特征的语音可懂度评分方法,即通过线性组合的方式得到新的声学特征测量得分来对语音可懂度评分,并实验验证了本文语音可懂度评分方法与人类专家评分的相关性。最后本文将发音问题检测方法与语音可懂度评价方法应用于实际在线原型系统中,设计了针对非母语学习者的语音可懂度评估系统。实验测试表明,通过该系统对英语发音进行检测和纠正错误音素后,学习者语音可懂度评分有了明显提高,进一步验证本文所提方法的有效性和实用性。因此本课题在计算机辅助发音领域有着一定的参考价值和应用价值。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.3
【图文】:

谱图,音强,和声,谱图


并对各分类模型在语音识别中的拓展应用进行了简究所可能存在的问题以及为后续章节的研究工作做铺垫。别技术识别技术的计算机辅助发音系统(CAPT),其核心技术就,由于英语作为全球最广为流通以及普遍的语言,其学习者算机辅助英语学习也成为了当今的一大研究热点。英文发多种技术来进行研究,研究首先需要了解英语语音的一些基理学过程,并据此建立合理的模型来描述发音检测评价的过类的产生与三部分器官有关:肺部、喉咙和声道。经过声道成人们所能听到的语音。例如英文单词“breakfast”的产生st 的音强图和声谱图。

处理流程图,语音信号,处理流程,音素


音素,字母,音标都是衡量一个英语学习中的发音质量以及能否被听者正确听懂理解的重要依据。2.1.2 语音信号处理语音声学基元是声学模型构建的基础,声学基元的选择标准一般需要考虑三个标准易训练、可拓展以及高精度。目前语音识别研究中声学基元的选择大多都是词(word)、音节(syllable)、半音节(semi-syllable)以及音素(phone)等。英文语音一般选择音素作为声学基元,对于小词汇语音识别系统,通常声学基元为词。由于构成英文单词的单元是字母,而字母又是音素组成的。而与汉语的词汇发音不同,汉语大多是基于声母,韵母所构成的[25][26]。计算机首先将接收到的语音进行预处理操作,处理为语音信号之后才能进行分析。通过计算机进行预处理等操作,可以一定程度上减少因为人类本身和采集设备对语音信号质量所造成的影响。为之后的信号处理提供稳定,优质的分析参数,从而提高信号处理的质量。语音信号处理流程如图 2-2 所示。

结构图,隐马尔科夫模型,声学模型,结构图


态序列不能被直接观察到,但可以通过观察向量反映出来;对于任意给定状态,MM 模型又是一个由隐含状态决定观察值的随机过程,它会以随机概率输出相的观察向量。HMM 的随机过程与语音的形成过程类似。HMM 模型能够很好的模拟语音特性,并对应出合理的数学解析,且对随时间不断变化的语音信号有极强的建能力。HMM 模型可以用以下五组参数来进行描述,如公式 2-1 所示: { , , , , } (2-1)其中 表示 HMM 模型所包含的有限隐含状态的集合; 表示每个隐状态所组的集合; 表示状态之间的转移概率,可用一个矩阵来表示; 为相应输出观察的概率; 表示由系统初始状态概率所构成的集合。HMM 模型用作声学模型,图 2-3 为 HMM 的示意图,其具有 6 个状态的 Morkov 过程,状态 2┼5 代表间状态,两个黑圆圈分别代表入口状态 1 和出口状态 6。

【相似文献】

相关期刊论文 前10条

1 陈亚繁;许勇;杨军;;单通道语音增强对低信噪比汉语可懂度的影响[J];电声技术;2016年10期

2 陈惠德;;%AL_cons的测试[J];电声技术;1989年05期

3 姚峰英,张敏;一种增强带噪语音可懂度的新算法[J];声学学报;2002年06期

4 胡书孝;提高教材可懂度技术的应用[J];医学教育;1992年06期

5 程容荃;;人造舌对全舌切除病人摄食和元音可懂度的影响[J];国外医学.耳鼻咽喉科学分册;1983年04期

6 齐鲁;从对话中摘出词句的可懂度[J];声学学报;1964年02期

7 齐鲁;从流利语言中摘出词句的可懂度——说话速度和词句长度的影响[J];声学学报;1964年02期

8 周笃强,黄端生,牛聪敏,陈善广,高慧;快速测量汉语语言可懂度方法的研究[J];航天医学与医学工程;1997年04期

9 吴小平;如何提高物理教材的可懂度[J];技术物理教学;2005年03期

10 蒋斌;匡正;吴鸣;杨军;;汉语音段反转言语的可懂度研究[J];声学学报;2012年06期

相关会议论文 前6条

1 许伟;曾新吾;龚昌超;;不同带宽和采样频率语音可懂度的实验研究[A];2008年全国声学学术会议论文集[C];2008年

2 汤朝菊;文森特·范赫恩;;汉语方言互懂度的实验测试[A];中国社会语言学(2006年第2期)[C];2006年

3 陈凯;俞蒙槐;胡上序;付强;;语音增强系统性能评测方法综述[A];第四届全国人机语音通讯学术会议(NCMMSC1996)论文集[C];1996年

4 尹建琪;覃春林;诸维明;;用于语声识别的自适应去噪[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

5 黄志华;;共振峰对维吾尔语语音可懂度的影响[A];2018年全国声学大会论文集 K语言声学与语音信号处理[C];2018年

6 王康;王鹏;邱小军;;汉语母语听者单耳英语通信可懂度受噪声的影响[A];2016年全国声学学术会议论文集[C];2016年

相关硕士学位论文 前10条

1 高源;基于音素的语音可懂度评价方法的研究与实现[D];北京工业大学;2018年

2 高飞;基于音频特性的语音可懂度评估[D];太原理工大学;2018年

3 刘鹏;高可懂度的信号子空间语音增强算法[D];太原理工大学;2014年

4 彭晓腾;语音可懂度客观评价策略的研究[D];内蒙古大学;2016年

5 郭利华;具有高可懂度的维纳滤波语音增强算法[D];太原理工大学;2014年

6 叶琪;低信噪比环境下语音可懂度增强算法研究[D];安徽大学;2016年

7 邝秀玉;多级低速率编解码级联语音可懂度增强算法研究与实现[D];电子科技大学;2011年

8 李娜;有效提高语音可懂度的语音增强方法研究[D];北京工业大学;2013年

9 徐宇卓;语音可懂度客观评价方法的研究[D];太原理工大学;2015年

10 罗钧;G.729与AMR级联语音可懂度提高技术研究[D];电子科技大学;2010年



本文编号:2787757

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2787757.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e2264***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com