当前位置:主页 > 科技论文 > 网络通信论文 >

耳语音转换正常语音及耳语音识别建模方法研究

发布时间:2017-04-21 16:41

  本文关键词:耳语音转换正常语音及耳语音识别建模方法研究,,由笔耕文化传播整理发布。


【摘要】:耳语音是一种有别于正常语音的常见发音方式,广泛地应用于人们的日常交流当中。由于发音器官进行耳语音发声时,声带没有振动,导致耳语音的浊音部分没有基频,并导致耳语音的频谱结构与正常语音存在很大不同。这一发音特点不仅导致耳语音的能量较低,而且也使得其自然度和可懂度比同样条件下的正常语音低。本文主要针对耳语音转换正常语音及耳语音识别的建模方法进行研究。 耳语音转换正常语音的目的将一个人的耳语音通过某种方式转换成正常语音,以提高耳语音的自然度和可懂度。在公共场所,人们出于隐私或者避免打扰他人的考虑,在语音通话时通常会采用耳语音。但是现有的通信系统都是针对正常语音发展而来,对耳语音支持度不高。耳语音转换技术有望可以提高耳语音通话的可懂度和自然度。此外,耳语音转换也可以应用在失音患者的辅助发音当中。 本文先后进行了基于规则和基于统计的耳语音转换研究。基于规则的转换模型具有高效快速、不需要训练数据等优点,而基于统计的转换模型需要训练数据,实时性也稍逊一筹,但是其转换音质较高,因此都具有研究价值。已有的基于码激励线性预测编码器(Code exited linear prediction, CELP)的耳语音转换模型不仅频谱转换规则复杂,需要对耳语音音素进行预分类,而且又存在基频生成规则过于简单的问题,使得其转换语音音质不佳,而且难以应用在连续耳语音的转换任务当中。为此,本文提出了基于正弦语音(Sinewave speech, SWS)合成的耳语音转换模型。这种模型不仅更加简洁,去掉了耳语音预处理模块,加入了根据共振峰估计基频的模块,而且可以作用于连续耳语音的转换,并使得转换语音的音质有了一定的改善。 在基于统计的耳语音转换模型研究中,本文针对传统基于高斯混合模型(Gaussian mixture model, GMM)的耳语音频谱转换模型难以对维间相关性和高维谱包络建模的不足,提出将受限玻尔兹曼机(restricted Boltzmann machine, RBM)应用于耳语音频谱转换建模。由于RBM不仅支持高维的谱包络输入,而且对维间相关性具有较强的建模的能力,使得该模型的转换语音相对GMM模型的转换语音有了明显的主观听感提升。 此外,本文还尝试了将深层神经网络(Deep neural network, DNN)用于耳语音频谱转换的建模当中。采用标准的RBM逐层预训练和最小均方误差准则(Minimum mean square error, MMSE)有监督训练得到的DNN,在训练数据较少的情况下容易出现过拟合现象,且网络训练容易受奇异数据影响。为此,本文提出了一种半监督(Semi-supervised)耳语音转换DNN训练流程。在该流程中,各采用一个RBM分别对耳语音和并行的正常语音谱包络参数空间建模,并通过训练得到的模型计算RBM隐层数据,这相当于对谱包络参数进行二值编码。然后,用MMSE准则训练DNN中间网络,建立耳语音谱包络二值编码到正常语音谱包络二值编码的映射关系。最后,将两两端的RBM和DNN中间网络组合成完整的DNN,完成耳语音谱包络参数到正常语音谱包络参数的转换。主观听感实验表明,这种半监督DNN不仅相对标准DNN有了明显的听感提升,而且相对RBM模型也有了一定的主观听感改善。 最后,本文在DNN-HMM混合模型框架下对耳语音识别的声学模型建模方法进行了研究。由于耳语音的频谱比较平缓,不同音素之间的声学特征区分性比较小,使得传统的GMM-HMM声学模型在耳语音识别任务上识别率不佳。DNN不仅支持高维的上下文声学特征输入,而且逐层特征提取的结构也更利于建立频谱特征到HMM状态的深层映射关系,相对传统的GMM-HMM更加适合对耳语音进行建模。同时,为了解决耳语音数据资源不足难以进一步提高DNN声学模型性能的难题,本文提出了一种基于知识传递(Knowledge transfer, KT)的耳语音DNN训练流程,可以将海量的正常语音数据和模型资源用于耳语音DNN的训练,大幅提升了耳语音的识别率。此外,由于耳语音中说话人信息收到损失,用于正常语音说话人DNN自适应方法在耳语音说话人自适应中面临很大的不确定性。本文分别进行了基于DNN特征域和模型域的耳语音说话人自适应验证实验,发现可以通过DNN有监督训练的方法从耳语音提取到有效的说话人信息,并且如果将该信息通过全连接矩阵输入到DNN的隐层和输出层,得到的说话人自适应模型在仅需要少量注册数据的情况下,就可以相对说话人无关模型取得一定的识别率提升。
【关键词】:耳语音 耳语音转换 耳语音识别 正弦语音分析 高斯混合模型 受限玻尔兹曼机 深层神经网络 知识传递 说话人自适应
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.3
【目录】:
  • 摘要5-7
  • ABSTRACT7-14
  • 第一章 绪论14-22
  • 1.1 耳语音介绍14-15
  • 1.2 耳语音转换技术的研究意义15-16
  • 1.3 耳语音转换技术的研究历史和现状16-18
  • 1.4 耳语音识别的研究意义、历史和现状18-19
  • 1.5 本论文的研究目标和结构安排19-22
  • 第二章 耳语音声学特征分析及耳语音信号处理基础22-34
  • 2.1 耳语音的声学特征分析22-26
  • 2.1.1 耳语音的发音机理22-23
  • 2.1.2 耳语音的信噪比与可懂度23-24
  • 2.1.3 耳语音的频谱与共振峰24-26
  • 2.2 耳语音信号处理基础26-31
  • 2.2.1 线性预测编码26-28
  • 2.2.2 倒谱分析28-30
  • 2.2.3 STRAIGHT语音分析模型30-31
  • 2.2.4 动态时间规整算法31
  • 2.3 耳语音转换评测方法31-33
  • 2.3.1 耳语音转换客观评测方法32
  • 2.3.2 耳语音转换主观评测方法32-33
  • 2.4 本章小结33-34
  • 第三章 基于规则的耳语音转换34-44
  • 3.1 现有的基于CELP的耳语音转换模型34-37
  • 3.1.1 耳语音预处理35
  • 3.1.2 耳语音频谱增强35-37
  • 3.1.3 基频估计37
  • 3.1.4 基于CELP的耳语音转换模型分析37
  • 3.2 基于正弦语音合成的耳语音转换37-41
  • 3.2.1 正弦语音模型38-39
  • 3.2.2 基于正弦合成的耳语音转换模型39-41
  • 3.3 实验及分析41-43
  • 3.3.1 测试集数据及实验参数配置41
  • 3.3.2 客观评测结果对比41-42
  • 3.3.3 主观评测结果对比42-43
  • 3.4 本章小结43-44
  • 第四章 基于受限玻尔兹曼机的耳语音转换44-60
  • 4.1 基于高斯混合模型的耳语音转换模型44-50
  • 4.1.1 高斯混合模型44-46
  • 4.1.2 基于高斯混合模型的耳语音频谱转换46-48
  • 4.1.3 基于高斯混合模型的耳语音基频估计48-49
  • 4.1.4 基于高斯混合模型的耳语音转换模型训练流程49-50
  • 4.1.5 基于GMM的耳语音转换模型的优点与不足50
  • 4.2 基于受限玻尔兹曼机的耳语音频谱转换50-55
  • 4.2.1 受限玻尔兹曼机51-53
  • 4.2.2 基于受限玻尔兹曼机的耳语音频谱转换建模53-54
  • 4.2.3 基于受限玻尔兹曼机的耳语音频谱转换模型训练流程54-55
  • 4.3 实验及分析55-57
  • 4.3.1 测试集数据集及实验参数配制55-56
  • 4.3.2 基于GMM的耳语音基频估计结果56
  • 4.3.3 客观评测结果对比56-57
  • 4.3.4 主观评测结果对比57
  • 4.4 本章小结57-60
  • 第五章 基于深层神经网络的耳语音转换60-72
  • 5.1 标准深层神经网络60-64
  • 5.1.1 标准深层神经网络模型及训练流程60-62
  • 5.1.2 基于RBM的逐层深层神经网络预训练62-63
  • 5.1.3 基于标准深层神经网络的耳语音频谱转换63-64
  • 5.2 半监督深层神经网络64-66
  • 5.2.1 半监督深层神经网络的训练流程64-65
  • 5.2.2 基于半监督深层神经网络的耳语音频谱转换65-66
  • 5.3 基于深层神经网络的耳语音频谱转换实验66-69
  • 5.3.1 数据集及实验配置66-67
  • 5.3.2 主观评测结果对比67
  • 5.3.3 客观评测结果对比67-69
  • 5.4 本章小结69-72
  • 第六章 基于深层神经网络的耳语音识别72-82
  • 6.1 基于DNN的语音识别声学模型72-75
  • 6.1.1 标准DNN-HMM混合模型及Bottleneck DNN深层特征72-74
  • 6.1.2 基于知识传递的耳语音DNN-HMM声学模型74-75
  • 6.2 基于speaker identity的耳语音DNN说话人自适应75-77
  • 6.2.1 特征域耳语音DNN说话人自适应75-76
  • 6.2.2 特征域耳语音DNN说话人自适应76-77
  • 6.3 中文普通话耳语音识别任务实验及分析77-80
  • 6.3.1 中文普通话耳语音数据集77
  • 6.3.2 基于标准DNN-HMM混合模型和Bottleneck-DNN特征提取的实验77-78
  • 6.3.3 基于知识传递的耳语音DNN训练流程实验78-79
  • 6.3.4 特征域耳语音DNN说话人自适应实验79
  • 6.3.5 模型域耳语音DNN说话人自适应实验79-80
  • 6.4 本章小结80-82
  • 第七章 总结与展望82-86
  • 7.1 本文的主要贡献与创新点82-83
  • 7.1.1 耳语音转换研究工作的主要贡献和创新点82-83
  • 7.1.2 耳语音识别研究工作的主要贡献和创新点83
  • 7.2 研究展望83-86
  • 参考文献86-92
  • 在读期间发表的学术论文与取得的研究成果92-94
  • 致谢94

【共引文献】

中国期刊全文数据库 前10条

1 邓秀慧;;汉语数字耳语音识别研究[J];电声技术;2014年07期

2 宫朝辉;刁麓弘;;改进共振峰提取的语音端点检测[J];计算机辅助设计与图形学学报;2013年08期

3 赵建东;高光来;飞龙;;基于HMM的蒙古语语音合成技术研究[J];计算机科学;2014年01期

4 晁浩;宋成;彭维平;;基于发音特征的声效相关鲁棒语音识别算法[J];计算机应用;2015年01期

5 钟厦;;农业智能机器人水果采摘优化控制模型仿真[J];计算机仿真;2015年04期

6 晁浩;宋成;彭维平;;语音识别中声效模式的分析及检测[J];计算机应用研究;2015年08期

7 李翠娥;周涛;屈季宁;陶泽璋;;声带息肉患者术后声休方案探讨[J];听力学及言语疾病杂志;2013年05期

8 TAO Zhi;ZHAO Heming;TAN Xuedan;GU Jihua;ZHANG Xiaojun;WU Di;;Conversion from whispered speech to normal speech using the extended bilinear transformation method[J];Chinese Journal of Acoustics;2013年04期

9 CHEN Xueqin;ZHAO Heming;;Research of whispered speech vocal tract system conversion based on universal background model and effective Gaussian components[J];Chinese Journal of Acoustics;2013年04期

10 孟凡博;吴志勇;蒙美玲;贾珈;蔡莲红;;基于决策树的英语焦点语音转换[J];清华大学学报(自然科学版);2013年07期

中国重要会议论文全文数据库 前2条

1 王海燕;杨鸿武;甘振业;裴东;;基于说话人自适应训练的汉藏双语语音合成[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

2 王朝民;谢湘;匡镜明;;一种嵌入式中文语音合成系统非周期成分音节层建模方法[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

中国博士学位论文全文数据库 前6条

1 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年

2 刘璋;基于结构特征的音乐重构关键技术研究[D];清华大学;2013年

3 龚呈卉;基于联合因子分析的耳语音说话人识别研究[D];苏州大学;2014年

4 杨辰雨;语音合成音库自动标注方法研究[D];中国科学技术大学;2014年

5 孟凡博;连续语流中焦点重音的分析与生成[D];清华大学;2013年

6 蔡明琦;融合发音机理的统计参数语音合成方法研究[D];中国科学技术大学;2015年

中国硕士学位论文全文数据库 前10条

1 杨静;基于RTFI的钢琴音乐多基频估计[D];西南交通大学;2013年

2 黄程;汉语耳语音重建的研究[D];安徽大学;2013年

3 何彬;基于语音识别和语音合成的汉语语音转换技术研究[D];云南大学;2013年

4 任鹏辉;情感语音合成系统的研究与实现[D];太原理工大学;2013年

5 李冰洁;采用谱—韵律双变换的语音情感转换[D];苏州大学;2013年

6 王红丽;基于FDA的语音基频建模的研究[D];西北师范大学;2013年

7 鲁小勇;情感语音合成的研究[D];西北师范大学;2013年

8 李向伟;情感语音的嗓音分析与合成[D];山东师范大学;2014年

9 赵建东;基于隐马尔科夫模型的蒙古语语音合成技术研究[D];内蒙古大学;2014年

10 宋阳;基于统计声学建模的单元挑选语音合成方法研究[D];中国科学技术大学;2014年


  本文关键词:耳语音转换正常语音及耳语音识别建模方法研究,由笔耕文化传播整理发布。



本文编号:320759

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/320759.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户24c33***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com