当前位置:主页 > 科技论文 > 信息工程论文 >

语种识别中的语音段表示方法研究

发布时间:2017-09-22 04:32

  本文关键词:语种识别中的语音段表示方法研究


  更多相关文章: 语种识别 语音段表示 深度神经网络 音素状态后验 深度瓶颈特征


【摘要】:语种识别(Language Identification, LID)是对一段语音自动识别出其所属语言的种类的过程。由此可知,语种识别是一种针对语音段进行的模式识别,因此语种识别中的一个关键问题即是如何得到用以描述语音段的表示。语种识别中包含了特征提取和语音识别前端模型等一系列语音信号处理领域的核心技术,具有一定的科学研究价值。同时作为语音领域的一种前端处理技术,语种识别在多语种语音识别、跨语种通信系统以及军事监听等领域有着广泛的应用。传统的语种识别方法主要有基于音素搭配与基于底层声学特征的两大系统。传统方法中虽然长时测试性能取得了很大的进展,但仍存在着短时与方言识别率低等问题。随着深度神经网络(Deep Neural Network, DNN)的发展与成功应用,语种识别有了一个新的研究领域。在前端特征提取上,提出基于深度瓶颈特征结合全差异空间模型(Deep Bottleneck Feature-Total Variability, DBF-TV)该方法将深度神经网络中间瓶颈隐层的信息成功运用到语种识别中。在后端建模方法上,则根据DNN区分性建模的能力充分利用其输出层信息,如DNN/i-Vector方法,即利用DNN输出层音素状态后验重新估计通用背景模型(Universal Background Model, UBM)。然而对于一个以底层声学特征为输入、音素状态后验为输出训练得到的深度神经网络,我们认为该网络从输入层至输出层依次反映了语音从底层声学特征到高层语义与音素相关的较为完备的信息,而且各层信息之间具有互补性。因此本文就基于同一DNN不同层信息如何得到语音段的表示展开研究,具体而言即是同时利用同一神经网络的中间瓶颈层和输出层信息。首先,对于从深度神经网络输出层提取的音素状态帧级特征,可以认为其是在各帧上展开的音素状态序列,则每段语音可以通过计算其统计量作为语音段表示。得到的语音段表示是向量形式的,则可直接用区分性模型对其进行分类。具体则根据其特性,使用合适的核函数进行了支持向量机分类。并根据神经网络不同层信息的互补性,将该方法与DBF-TV进行融合,能够提升语种识别系统的性能。其次,在带有中间瓶颈层的深度神经网络上实现基于DBF的DNN/i-Vector基线系统,同时完成中间层DBF特征的提取与以输出层音素状态为依据的聚类,即在模型域对两者进行融合。具体地,利用DNN输出层的音素状态为聚类的依据,以其后验概率代替每帧特征在传统UBM模型中各高斯上的占有率,再结合DBF得到带有与音素状态相关的UBM。以此为基线,对DNN/i-Vector系统的输入特征DBF进行Acoustic Factor Analysis(AFA)建模,使其得到的模型能够更好地描述特征空间,以此进一步提升系统的识别性能。最后,从深度神经网络输出层提取的特征是一种帧级特征,类似DBF特征亦可以利用统计建模的方法对其在帧级特征空间上的分布特性进行描述以得到湃音段表示。然而此类特征一般都属于高维特征,需要在低维空间上对其分析。我们采用混合因子分析(Mixtures of Factor Analyzers, MFA)对特征进行低维空间上的建模方法研究,该方法是降维与聚类的结合,等同于对特征进行聚类后,再在每个聚类内做因子分析将其映射到低维空间上。相对将输出层信息的统计量作为语音段表示的单系统,该方法的性能有一定的提升,特别是在短时测试集的识别性能上。
【关键词】:语种识别 语音段表示 深度神经网络 音素状态后验 深度瓶颈特征
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
  • 摘要5-7
  • ABSTRACT7-13
  • 第一章 绪论13-21
  • 1.1 语种识别简介13-17
  • 1.1.1 语种识别背景介绍13-15
  • 1.1.2 语种识别研究概况15-17
  • 1.2 数据集及性能评价指标17-18
  • 1.2.1 数据集17-18
  • 1.2.2 性能评价指标18
  • 1.3 论文的主要内容及组织结构18-21
  • 第二章 语种识别中语音段表示方法概述21-33
  • 2.1 基于音素搭配的语种识别方法21-23
  • 2.1.1 基于PR-LM的语种识别22-23
  • 2.1.2 基于PR-SVM的语种识别23
  • 2.2 基于底层声学特征的语种识别方法23-28
  • 2.2.1 基于GMM-UBM的语种识别24-25
  • 2.2.2 基于GSV-SVM的语种识别25-26
  • 2.2.3 基于因子分析的语种识别26-28
  • 2.3 基于网络的语种识别方法28-32
  • 2.3.1 基于PLLR特征的语种识别28-29
  • 2.3.2 基于DBF-TV的语种识别29-31
  • 2.3.3 DNN/i-Vector语种识别系统31-32
  • 2.4 本章小结32-33
  • 第三章 基于DNN不同层信息的语音段表示33-41
  • 3.1 基于DNN的帧级特征提取33-34
  • 3.2 基于音素状态与DBF的语种识别系统34-36
  • 3.3 实验36-38
  • 3.4 本章小结38-41
  • 第四章 基于DNN的i-Vector语音段表示41-53
  • 4.1 基于DBF的DNN/i-Vector基线系统41-43
  • 4.2 模型输入特征43-45
  • 4.3 基于AFA建模的i-Vector语音段表示45-49
  • 4.3.1 基于AFA建模的语种识别系统45-46
  • 4.3.2 基于AFA建模的i-Vector46-49
  • 4.4 实验49-51
  • 4.5 本章小结51-53
  • 第五章 低维空间上的语音段表示53-61
  • 5.1 基于DNN输出层的帧级特征53-54
  • 5.2 基于MFA建模的语音段表示54-57
  • 5.2.1 混合因子分析54-56
  • 5.2.2 基于MFA的超矢量语音段表示56-57
  • 5.3 实验57-59
  • 5.4 本章小结59-61
  • 第六章 总结与展望61-65
  • 6.1 论文工作总结61-63
  • 6.2 后续工作展望63-65
  • 参考文献65-69
  • 致谢69-71
  • 在读期间发表的学术论文与取得的研究成果71

【相似文献】

中国期刊全文数据库 前10条

1 谢贵武;杨继红;肖勇;闵刚;;基于语音分段的自适应时长调整算法[J];军事通信技术;2008年02期

2 樊建中;孙晴;杨永杰;;一种智能盲文学习机设计[J];现代电子技术;2010年05期

3 温洪昌;黄应强;傅贵兴;;单片机的多段语音组合录放系统设计[J];单片机与嵌入式系统应用;2011年10期

4 张剑;袁华强;;Rhetorical-State SVM在抽取式语音摘要中的应用[J];科学技术与工程;2013年21期

5 卢坚 ,毛兵 ,孙正兴 ,张福炎;一种改进的基于说话者的语音分割算法[J];软件学报;2002年02期

6 章文义,朱杰;几种无语音检测噪音估计方法的比较研究[J];计算机工程与设计;2003年10期

7 林鑫;陈桦;王开志;王继成;;语音驱动唇形自动合成算法[J];计算机工程;2007年17期

8 蔡铁;;基于在线单类支持向量机的自适应语音活动检测[J];深圳信息职业技术学院学报;2008年02期

9 章钊;郭武;;话者识别中结合模型和能量的语音激活检测算法[J];小型微型计算机系统;2010年09期

10 朱淑琴,裘雪红;一种精确检测语音端点的方法[J];计算机仿真;2005年03期

中国重要会议论文全文数据库 前9条

1 田野;王作英;陆大金;;基于韵律结构信息的非语音拒识[A];第六届全国人机语音通讯学术会议论文集[C];2001年

2 徐明;胡瑞敏;黄云森;;基于音素识别的语音评价方法[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年

3 王欢良;韩纪庆;李海峰;王承发;;面向嵌入式应用的小词汇量语音串识别系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

4 那斯尔江·吐尔逊;吾守尔·斯拉木;麦麦提艾力;;维吾尔语大词汇量连续语音识别研究——语音语料库的建立[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 简志华;王向文;;考虑帧间信息的语音转换算法[A];浙江省信号处理学会2012学术年会论文集[C];2012年

6 魏维;马海燕;;一种丢失语音信包重建的新算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年

7 陈凡;罗四维;;一个实用语音开发应用系统的设计与实现[A];第二届全国人机语音通讯学术会议论文集[C];1992年

8 刘红星;戴蓓劏;陆伟;;基于图像增强方法的共振峰谐波能量参数的语音和端点检测[A];第九届全国人机语音通讯学术会议论文集[C];2007年

9 林爱华;张文俊;王毅敏;;基于肌肉模型的语音驱动唇形动画[A];第十三届全国图象图形学学术会议论文集[C];2006年

中国重要报纸全文数据库 前5条

1 atvoc;数码语音电路产品概述[N];电子资讯时报;2008年

2 记者 李山;德用双音素改进人工语音表达[N];科技日报;2012年

3 中国科学院自动化研究所模式识别国家重点实验室 于剑邋陶建华;个性化语音生成技术面面观[N];计算机世界;2007年

4 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年

5 ;与“小超人”对话[N];中国计算机报;2001年

中国博士学位论文全文数据库 前10条

1 高伟勋;智能家居环境中个性化语音生成关键技术研究[D];东华大学;2015年

2 陈丽萍;说话人确认中语音段差异建模相关问题的研究[D];中国科学技术大学;2016年

3 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年

4 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年

5 李冬冬;基于拓展和聚类的情感鲁棒说话人识别研究[D];浙江大学;2008年

6 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年

7 古今;语音感知认证的关键技术研究[D];中国科学技术大学;2009年

8 彭波;Internet上语音的鲁棒性传输研究[D];华南理工大学;2001年

9 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年

10 应娜;基于正弦语音模型的低比特率宽带语音编码算法的研究[D];吉林大学;2006年

中国硕士学位论文全文数据库 前10条

1 王明明;基于GMM和码本映射相结合的语音转换方法研究[D];西安建筑科技大学;2015年

2 印雪晨;宋词朗读呼吸信号和韵律时长研究[D];西北民族大学;2015年

3 邱一良;噪声环境下的语音检测方法研究[D];电子科技大学;2015年

4 朱俊梅;基于性别预分类的年龄自动估计研究[D];江苏师范大学;2014年

5 张占松;基于DSP的语音干扰方法研究与实现[D];北京交通大学;2016年

6 李鹏;基于系统融合的语音查询项检索技术研究[D];解放军信息工程大学;2015年

7 赵蓉蓉;基于计算听觉场景分析的单通道语音盲分离技术[D];太原理工大学;2016年

8 崔瑞莲;语种识别中的语音段表示方法研究[D];中国科学技术大学;2016年

9 刘学;基于语音样例查询的关键词识别方法研究[D];中国科学技术大学;2016年

10 周慧;基于PAD三维情绪模型的情感语音转换与识别[D];西北师范大学;2009年



本文编号:898823

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/898823.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户be158***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com