普通话自由表述口语评测关键技术的研究
本文关键词:普通话自由表述口语评测关键技术的研究
更多相关文章: PSC 自由表述口语 语音评测 后验概率 多语种-神经网络 递归神经网络 条件随机场 矢量空间模型
【摘要】:口语评测是一种学生按照某种要求发音,计算机根据学生发音的标准程度来自动评分的技术。传统的文本相关评测任务要求学生严格依照指定的文本发音,对应朗读或者严格背诵的情境,通常采用帧规整对数后验概率作为衡量发音标准程度最主要的特征,该特征与人工分具有较高的相关度,此技术也已经有了广泛而成功的应用。但在文本无关情境下,比如要求考生在给定主题约束下,针对该主题进行一段自由表述,通过衡量发音的标准程度和词汇语法使用规范程度来评分,这种任务无论国内还是国际上都鲜有研究;本文尝试对此展开初步的研究工作。具体的,是针对国内普通话水平测试(Putonghua Shuiping Ceshi, PSC)的第4题进行自动评分的研究。该题要求考生在3分钟内进行一段给定主题的自由表述,与本文的研究非常契合。本文的主要研究工作概述如下:首先,本文探究了如何采用识别的方法,对文本无关口语评测计算类似于文本相关任务中常用的后验概率特征,以此来评估发音的标准程度。具体的,利用DNN-HMM的语音识别模型对考生表述的语音做识别,再在此框架下计算解码中的每个音素相对于发音矢量的后验概率,并针对PSC考试第4题的具体情境进行了改进。实验表明,该后验概率与人工分具有较高的相关度。其次,由于本论文后验概率特征计算的过程非常依赖于识别的性能,为了提升识别器的准确率,采用递归神经网络(Recurrent Neural Network, RNN)语言模型来对一遍解码出的N-best候选做语言模型得分重估计(Rescoring),选取Rescoring后得分最大的候选句子作为新的识别结果:实验结果发现,这样修正后无论是识别率还是后验概率特征与人工分的相关度,都有一定的提升。再者,为了衡量考生表述语音中的方言口音程度,本论文借鉴多语种-神经网络(Multi-lingual Neural Network)的方法,在解码神经网络的输出引入额外的方言数据状态节点,获得每一帧数据相对于方言数据模型的似然度得分,从而在后验概率计算公式的分母上引入方言得分,初步估计发音的方言程度。然后,为了关注表述的流畅程度,本论文采用每句话的音素平均发音帧数来计算语速特征,以此初步估计流畅程度。另外,尝试使用条件随机场(Conditional Random Field, CRF)训练分句模型,从内容上对识别结果进行句子边界判断。实验表明,重新分句后计算的语速特征与人工分具有更高的相关度。最后,使用矢量空间模型(Vector Space Model, VSM)对识别结果建模,从内容上评估表述的词汇语法使用规范程度。实验发现,对VSM模型采用一层RBM变换会获得较好的性能。同时,为了评分的公平性,还进行了离题检测相关任务。
【关键词】:PSC 自由表述口语 语音评测 后验概率 多语种-神经网络 递归神经网络 条件随机场 矢量空间模型
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要5-6
- ABSTRACT6-12
- 第一章 绪论12-20
- 1.1 研究背景及意义12-14
- 1.2 国内外研究现状14-17
- 1.3 本文主要研究内容及结构安排17-20
- 第二章 基于深度神经网络的后验概率计算方法20-28
- 2.1 基于HMM模型的语音识别基本原理20-22
- 2.2 DNN模型应用于语音识别22-24
- 2.3 DNN-HMM模型下后验概率的计算24-25
- 2.4 针对PSC考试背景的后验概率应用25
- 2.4.1 静音段比例与后验概率加权25
- 2.4.2 后验概率判断发音正确与否25
- 2.5 实验结果和分析25-28
- 2.5.1 DNN-HMM识别器识别性能简介25-26
- 2.5.2 评测集合简介26
- 2.5.3 后验概率特征初步性能26-28
- 第三章 后验概率计算改进算法28-36
- 3.1 基于语言模型的识别结果修正28-30
- 3.1.1 RNN语言模型简介28-29
- 3.1.2 RNN语言模型修正识别结果29-30
- 3.2 基于多语种-神经网络方法的发音方言程度评估30-32
- 3.2.1 多语种-神经网络方法简介30-31
- 3.2.2 多语种方法应用于方言程度评估31-32
- 3.3 实验结果和分析32-36
- 3.3.1 RNN语言模型修正性能32-34
- 3.3.2 语种-神经网络方法性能34-36
- 第四章 基于条件随机场的语速特征计算方法36-44
- 4.1 条件随机场模型简介36-40
- 4.2 基础语速特征提取方法40-41
- 4.3 CRF模型判断句子边界标识41-42
- 4.4 实验结果和分析42-44
- 第五章 基于矢量空间模型的词汇语法使用规范评估44-52
- 5.1 矢量空间模型简介44-45
- 5.2 词汇语法规范评估方法45-46
- 5.3 离题检测方法46-48
- 5.4 实验结果和分析48-52
- 5.4.1 VSM特征性能48
- 5.4.2 离题检测性能48-50
- 5.4.3 最终评分性能50-52
- 第六章 总结52-54
- 6.1 本文的主要贡献与创新点52-53
- 6.2 后续工作展望53-54
- 参考文献54-58
- 致谢58-60
- 在读期间发表的学术论文与取得的研究成果60
【相似文献】
中国期刊全文数据库 前10条
1 娄震,金忠,杨静宇;基于类条件置信变换的后验概率估计方法[J];计算机学报;2005年01期
2 周寿军;周智洋;邱建平;王文辉;尹洪男;;基于后验概率的呼吸信号预测[J];中国生物医学工程学报;2009年02期
3 冯志远;张连海;;基于音素后验概率和层次凝聚聚类算法的音素边界检测[J];太赫兹科学与电子信息学报;2014年02期
4 郑海红;曾平;;基于最大后验概率的逆半调改进方法[J];西安交通大学学报;2005年12期
5 李向军;李良福;;基于后验概率度量的粒子滤波跟踪算法研究[J];应用光学;2011年04期
6 张文生,王珏,戴国忠;支持向量机中引入后验概率的理论和方法研究[J];计算机研究与发展;2002年04期
7 邹士新;马远良;杨坤德;雷波;;匹配场反演后验概率分析[J];系统仿真学报;2005年12期
8 孟莎;余鹏;Frank Seide;刘加;;基于后验概率词格的汉语自然对话语音索引[J];清华大学学报(自然科学版);2008年S1期
9 文志强;蔡自兴;;一种最大后验概率条件下的运动目标检测方法[J];小型微型计算机系统;2008年05期
10 郑铁然;韩纪庆;;基于后验概率的汉语语音检索方法研究[J];高技术通讯;2009年02期
中国重要会议论文全文数据库 前10条
1 邹士新;马远良;杨坤德;雷波;;匹配场反演后验概率分析[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
2 严可;魏思;戴礼荣;刘庆峰;;基于音素相关后验概率变换的发音质量评价[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
3 张文生;王珏;;支持向量机中引入后验概率的理论和方法研究[A];2001年中国智能自动化会议论文集(下册)[C];2001年
4 张希娟;朱靖波;;主动学习中后验概率尖锐现象的平滑处理[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 张学磊;李整林;;简正波频散特性反演结果的后验概率分析[A];2008年全国声学学术会议论文集[C];2008年
6 韦艳艳;李陶深;;一种改进的基于加权平均后验概率的1-层泛化方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 孟莎;余鹏;Frank Seide;刘加;;基于后验概率词格的汉语自然对话语音索引[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 王晓红;;一种改进多类支持向量机加权后验概率重构策略[A];2009中国控制与决策会议论文集(3)[C];2009年
9 严可;魏思;戴礼荣;刘庆峰;;基于音素相关后验概率变换的发音质量评价[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 姚舒恬;陆佶人;方世良;;一种基于最大后验概率判决的线谱检测方法[A];2004年全国水声学学术会议论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 石磊;自主式车辆环境感知技术研究[D];南京理工大学;2010年
中国硕士学位论文全文数据库 前5条
1 许苏魁;普通话自由表述口语评测关键技术的研究[D];中国科学技术大学;2016年
2 代大攀;基于后验概率和流形正则化的半监督分类方法研究[D];华中科技大学;2012年
3 石磊;基于后验概率加权的模糊支持向量分类机研究及应用[D];重庆师范大学;2009年
4 万方;一种基于ROC分析的多类别分类方法[D];山东大学;2010年
5 张如艳;基于核函数的最大后验概率的分类方法的研究及其应用[D];江南大学;2012年
,本文编号:1104395
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1104395.html