语音与文本联合学习的言语评估
发布时间:2021-09-19 19:26
在现实生活中,有很多场景需要对说话人的言语表达能力进行评估,比如:普通话考试、口语训练、语言教学评价、播音支持考试等。目前,这些场景大多数仍然采用人工打分的方式进行评估,这种评估方式往往缺乏公平性,并且耗时秏力,成本太高,整体效率低下。语言学习者也需要一种可以随时给予学习反馈的言语自动评估工具。目前的言语自动评估系统往往只参考语音层面的信息,没有涉及语义、语法等文本相关的内容,不能反映出说话人口语表达的全部信息。很多场景下,打分人员也往往只是给说话人反馈一个整体的分数,并没有进行多维度的评估。针对通用言语评估场景下的复杂数据,本文设计了一套规范有效的数据预处理流程。该流程包括三个部分:利用音频活动检测技术,对音频数据进行降噪处理,提升音频的质量;利用语音识别技术,对语音数据进行转录处理生成文本数据,为后续多模态言语评估方法的实现做了良好的铺垫;利用数据重采样技术,平衡了数据标签的分布。通过控制变量的方法设计对比实验,验证数据预处理流程的有效性。实验结果表明,本文设计的音频活动检测、语音识别、数据重采样三个数据预处理流程对言语自动评估模型的性能均有明显的提升。本文采用语音和文本联合学习的...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
图2-2两种时序网络结构
哈尔滨工业大学工学硕士学位论文-11-型,后面实验比较GRU和LSTM在多模态言语自动评估模型中性能的好坏。2.3.2多模态融合介绍在现实世界中进行沟通交流,往往需要涉及多种模态信息,比如:人类口头说出的言语既包含声音信息、也包含文本内容信息,我们看到的视频既包含图像内容、也包含声音内容等。因此,多模态的研究是人工智能中非常重要的一个环节,通过处理和关联多个模态的信息,可以让人工智能真正感受和理解这个世界。目前,多模态学习领域主要的研究方向有:1)多模态表示学习;2)模态转化;3)对齐;4)多模态融合;5)协同学习。本课题主要涉及到的是多模态融合的研究方向。多模态融合(MultimodalFusion)是目前多模态应用最广的一个方向,它主要是联合多个模态的信息,用于做各种任务,比如:分类或者回归任务,进行目标检测等[37]。图2-3多模态融合的类型对于多模态融合这个研究方向,按照参与数据融合的数据类型不同,可以分别不同级别的融合方式:像素级别(pixellevel)的融合、特征级别(featurelevel)的融合以及决策级别(decisionlevel)的融合,如图2-3所示。对于特征级别的融合,又可以根据在网络结构的不同位置进行融合,分为前期的特征融合和后期的特征融合。特征级融合方法既能够保证足够数量的目标信息,去除掉了冗余的信息,从而提升系统性能;决策级融合方法是目前最高级别的融合,但是对数据分析和数据预处理、特征提取要求比较高。因此,本文采用特征级的多模态融合方式来进行言语评估模型的设计。特征级多模态融合方法的目标就是:通过某种融合算法,把多个模态的特征信息融合成为更高质量的有用的信息,将融合后的最终的信息用于下一步决策。图2-4中展示了特征级多模态融合的具体过程。
哈尔滨工业大学工学硕士学位论文-12-在实际使用特征级多模态融合方法中,要对特征进行融合计算,已达到特征融合的目的。目前,关于特征级融合的具体计算方式也有很多,常用的主要有:1)基于概率统计的特征融合方法;2)基于逻辑推理的特征融合方法;3)使用神经网络模型训练的方法;4)基于特征提取的多模态融合方法;5)基于特征搜索的多模态融合方法,等等。以上介绍的方法都有各自的特点和适用场景,在实际使用中,往往不会局限于固定的一种方法,会将多种融合方法综合使用,以达到更好的特征融合效果[38]。图2-4特征级多模态融合的具体过程2.3.3注意力机制介绍注意力机制思想提出的目的是用一种高效的注意力方法从大量信息中快速地获取到更有用的信息,从而提高数据处理的效率。注意力机制提出之后,近几年被广泛使用,已经成为了深度学习任务中必不可少的指导思想。注意力机制的引入,对自然语言处理、图像、语音等领域的相关研究都产生了极大的推动作用。注意力机制方法最原始的定义为:设一组特征向量的集合为values,设一个特征向量为query,注意力机制的本质是根据这个查询向量query去和给定的特征向量values进行对比,求出values中每个值在query上的权重,这些权值表明了最终的输出对序列中的每一个部分的关注程度。然后对values进行加权求和,加权求和的结果就是values的attention值。图3-4中展示了一个attention机制计算的例子,图中ih表示每个时刻i的输入,序列向量h经过softmax激活函数计算之后,得出一个权值向量α,用来表示h每个部分的关注程度。最后,h和对应的权值α进行加权求和,得到tc,表示最终计算得出的attention变量。
【参考文献】:
期刊论文
[1]汉语口语开放性试题计算机自动评分的效度验证[J]. 王妍,彭恒利. 中国考试. 2019(09)
[2]一种基于LSTM的合成语音自然度评价方法的研究[J]. 汤梦,朱杰. 信息技术. 2019(05)
[3]携手科大讯飞 英特尔让人工智能听懂用户[J]. 贾瑞. 计算机与网络. 2017(12)
[4]基于隐马尔可夫模型的英语口语考试智能评分系统[J]. 金晓宏. 内蒙古师范大学学报(自然科学汉文版). 2017(03)
[5]自由表述口语语音评测后验概率估计改进方法[J]. 许苏魁,戴礼荣,魏思,刘庆峰,高前勇. 中文信息学报. 2017(02)
[6]普通话水平测试系统中语音识别和语音评测技术研究[J]. 周晓兰. 中外企业家. 2016(29)
[7]多特征融合的英语口语考试自动评分系统的研究[J]. 李艳玲,颜永红. 电子与信息学报. 2012(09)
[8]世界上最大的民间考试机构——美国教育考试服务中心[J]. 牛道生,欧阳延平. 湖北招生考试. 2003(16)
[9]语音质量客观评价方法研究进展[J]. 陈国,胡修林,张蕴玉,朱耀庭. 电子学报. 2001(04)
硕士论文
[1]基于深度学习的语音质量评价方法研究[D]. 王冰倩.大连理工大学 2015
[2]基于深度学习的英语语音识别与发音质量评价[D]. 陈嘉华.广东外语外贸大学 2015
[3]基于TANDEM的声学模型区分性训练在语音评测系统中的研究[D]. 龚澍.中国科学技术大学 2010
本文编号:3402198
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
图2-2两种时序网络结构
哈尔滨工业大学工学硕士学位论文-11-型,后面实验比较GRU和LSTM在多模态言语自动评估模型中性能的好坏。2.3.2多模态融合介绍在现实世界中进行沟通交流,往往需要涉及多种模态信息,比如:人类口头说出的言语既包含声音信息、也包含文本内容信息,我们看到的视频既包含图像内容、也包含声音内容等。因此,多模态的研究是人工智能中非常重要的一个环节,通过处理和关联多个模态的信息,可以让人工智能真正感受和理解这个世界。目前,多模态学习领域主要的研究方向有:1)多模态表示学习;2)模态转化;3)对齐;4)多模态融合;5)协同学习。本课题主要涉及到的是多模态融合的研究方向。多模态融合(MultimodalFusion)是目前多模态应用最广的一个方向,它主要是联合多个模态的信息,用于做各种任务,比如:分类或者回归任务,进行目标检测等[37]。图2-3多模态融合的类型对于多模态融合这个研究方向,按照参与数据融合的数据类型不同,可以分别不同级别的融合方式:像素级别(pixellevel)的融合、特征级别(featurelevel)的融合以及决策级别(decisionlevel)的融合,如图2-3所示。对于特征级别的融合,又可以根据在网络结构的不同位置进行融合,分为前期的特征融合和后期的特征融合。特征级融合方法既能够保证足够数量的目标信息,去除掉了冗余的信息,从而提升系统性能;决策级融合方法是目前最高级别的融合,但是对数据分析和数据预处理、特征提取要求比较高。因此,本文采用特征级的多模态融合方式来进行言语评估模型的设计。特征级多模态融合方法的目标就是:通过某种融合算法,把多个模态的特征信息融合成为更高质量的有用的信息,将融合后的最终的信息用于下一步决策。图2-4中展示了特征级多模态融合的具体过程。
哈尔滨工业大学工学硕士学位论文-12-在实际使用特征级多模态融合方法中,要对特征进行融合计算,已达到特征融合的目的。目前,关于特征级融合的具体计算方式也有很多,常用的主要有:1)基于概率统计的特征融合方法;2)基于逻辑推理的特征融合方法;3)使用神经网络模型训练的方法;4)基于特征提取的多模态融合方法;5)基于特征搜索的多模态融合方法,等等。以上介绍的方法都有各自的特点和适用场景,在实际使用中,往往不会局限于固定的一种方法,会将多种融合方法综合使用,以达到更好的特征融合效果[38]。图2-4特征级多模态融合的具体过程2.3.3注意力机制介绍注意力机制思想提出的目的是用一种高效的注意力方法从大量信息中快速地获取到更有用的信息,从而提高数据处理的效率。注意力机制提出之后,近几年被广泛使用,已经成为了深度学习任务中必不可少的指导思想。注意力机制的引入,对自然语言处理、图像、语音等领域的相关研究都产生了极大的推动作用。注意力机制方法最原始的定义为:设一组特征向量的集合为values,设一个特征向量为query,注意力机制的本质是根据这个查询向量query去和给定的特征向量values进行对比,求出values中每个值在query上的权重,这些权值表明了最终的输出对序列中的每一个部分的关注程度。然后对values进行加权求和,加权求和的结果就是values的attention值。图3-4中展示了一个attention机制计算的例子,图中ih表示每个时刻i的输入,序列向量h经过softmax激活函数计算之后,得出一个权值向量α,用来表示h每个部分的关注程度。最后,h和对应的权值α进行加权求和,得到tc,表示最终计算得出的attention变量。
【参考文献】:
期刊论文
[1]汉语口语开放性试题计算机自动评分的效度验证[J]. 王妍,彭恒利. 中国考试. 2019(09)
[2]一种基于LSTM的合成语音自然度评价方法的研究[J]. 汤梦,朱杰. 信息技术. 2019(05)
[3]携手科大讯飞 英特尔让人工智能听懂用户[J]. 贾瑞. 计算机与网络. 2017(12)
[4]基于隐马尔可夫模型的英语口语考试智能评分系统[J]. 金晓宏. 内蒙古师范大学学报(自然科学汉文版). 2017(03)
[5]自由表述口语语音评测后验概率估计改进方法[J]. 许苏魁,戴礼荣,魏思,刘庆峰,高前勇. 中文信息学报. 2017(02)
[6]普通话水平测试系统中语音识别和语音评测技术研究[J]. 周晓兰. 中外企业家. 2016(29)
[7]多特征融合的英语口语考试自动评分系统的研究[J]. 李艳玲,颜永红. 电子与信息学报. 2012(09)
[8]世界上最大的民间考试机构——美国教育考试服务中心[J]. 牛道生,欧阳延平. 湖北招生考试. 2003(16)
[9]语音质量客观评价方法研究进展[J]. 陈国,胡修林,张蕴玉,朱耀庭. 电子学报. 2001(04)
硕士论文
[1]基于深度学习的语音质量评价方法研究[D]. 王冰倩.大连理工大学 2015
[2]基于深度学习的英语语音识别与发音质量评价[D]. 陈嘉华.广东外语外贸大学 2015
[3]基于TANDEM的声学模型区分性训练在语音评测系统中的研究[D]. 龚澍.中国科学技术大学 2010
本文编号:3402198
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3402198.html