基于DBN-UBM-DBF系统TV建模下的语种识别方法研究
本文关键词:基于DBN-UBM-DBF系统TV建模下的语种识别方法研究 出处:《中国科学技术大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 语种识别 TV建模 余弦距离得分 主成分分析 类内方差 自适应高斯后端 局部距离离群因子
【摘要】:语种识别(Language Recognition,LR)作为语音信号处理领域中的一个重要研究分支,具体是指利用计算机对任意给定时长的语音片段进行一定的分析和处理,从而自动判别出未知语音片段所属语言类别的过程。近二十年来语种识别才真正意义上成为研究的热点,理论算法研究的逐渐成熟也逐步平稳地推进着语种识别技术向实际应用方面的转变。基于全差异空间(Total Variability,TV)建模获取语音段i-vector表示的方法因其理论发展的成熟和性能的突出已被研究者们普遍应用在自己的语种识别系统中。本论文旨在获得能够有效描述语种信息的i-vector后,尝试解决后续语种识别方法存在的实际问题,从而找到适用于不同语种、不同测试样本的性能更加优异的语种识别方法,主要工作及成果如下:1.研究了基于DBN-UBM-DBF系统TV建模。首先在介绍了经典TV建模的基础上,对 DBN-UBM-DBF(Deep Bottleneck Network-Universal Background Model-Deep Bottleneck Features)系统中利用同一深度瓶颈网络(Deep Bottleneck Network,DBN)的不同层的输出信息提取语音段i-vector的完整过程进行了详细论述,然后对提取到的i-vector的特征域噪声补偿方法进行了阐述和分析,最后在实验中给出基线系统的默认配置并对基线系统的性能进行测试实验,为后续的研究提供统一的性能比较基准。2.系统地分析比较了目前在i-vector空间下的多种主流后端语种识别方法。首先对现有算法做了归纳和分类,详细介绍了每种方法在语种识别任务中的应用,然后在开发集上实验分析确定所需要配置的参数和相关实现细节,并利用不同性能指标下进行在测试集上的性能测试,最后分析比较各种方法在不同测试时长条件下的性能表现差异,并进一步总结方法之间的优劣性,为后续的改进工作提供了清晰的思路。3.提出了基于语种类内方差先验的加权余弦距离得分计算(Cosine Distance Score,CDS)改进算法。首先针对基线方法CDS性能提升存在瓶颈的实际问题,提出引入语种数据i-vector语种类内方差这种先验知识,然后为了减少由于i-vector不同特征维度对识别性能重要性存在显著差异带来的识别错误,进一步对语种类内方差进行加权处理,最后通过实验对改进算法进行性能测试并与基线方法作对比。4.提出了基于局部距离离群因子(LDOF,local distance-based outlier factor)准则的自适应高斯后端语种识别方法。首先针对由语种类内多样性引起的测试样本和已训练好的模型不匹配的问题,提出一种与测试样本相关的AGB语种识别方法,然后为了测试样本能够从多类语种训练样本子集上可靠地挑选出与之特性相近的训练样本,进一步定义了 LDOF准则,最后实验验证提出的解决算法的有效性。
[Abstract]:Language recognition (LR) is an important research branch in the field of speech signal processing. Specifically refers to the use of computers to any given length of speech fragments for a certain analysis and processing. Thus, the process of identifying the language category of unknown speech fragments automatically. In the last two decades, language recognition has become a real research hotspot. The maturation of theoretical algorithm is also advancing the transformation of language recognition technology to practical application. Total Variability is based on full difference space. TVV). The method of modeling for speech segment i-vector representation has been widely used by researchers in their own language recognition system because of its mature theory development and outstanding performance. This paper aims to obtain an effective description. After the i-vector of language information. This paper attempts to solve the practical problems of the subsequent language recognition methods, and find a more excellent language recognition method suitable for different languages and different test samples. The main work and results are as follows: 1. The TV modeling based on DBN-UBM-DBF system is studied. Firstly, the classical TV modeling is introduced. For DBN-UBM-DBF (. Deep Bottleneck Network-Universal Background Model-Deep Bottleneck. Features). Deep Bottleneck Network is used in the system using the same depth bottleneck network. The complete process of extracting voice segment i-vector from different layers of DBN is discussed in detail. Then the feature domain noise compensation method of the extracted i-vector is described and analyzed. Finally, the default configuration of the baseline system is given and the performance of the baseline system is tested. This paper provides a unified performance comparison benchmark for further research. (2) A systematic analysis and comparison of various mainstream back-end language recognition methods in i-vector space is presented. Firstly, the existing algorithms are summarized and classified. . The application of each method in the task of language recognition is introduced in detail, and then the parameters and implementation details of the required configuration are analyzed and determined experimentally on the development set. Finally, the performance differences of various methods under different test time conditions are analyzed and compared, and the advantages and disadvantages of the methods are further summarized. This paper provides a clear way of thinking for further improvement work. 3. A weighted cosine distance score based on a priori intra-class variance is proposed to calculate the cosine Distance Score. First of all, aiming at the bottleneck of CDS performance improvement in baseline method, a priori knowledge of in-class variance of i-vector language is introduced. Then in order to reduce the recognition errors caused by the significant difference in the importance of i-vector to the recognition performance, the intra-class variance is further weighted. Finally, the performance of the improved algorithm is tested by experiments and compared with the baseline method. 4. LDOF based on local distance outliers is proposed. Local distance-based outlier factor. The adaptive Gao Si back-end language recognition method is proposed. Firstly, the problem of mismatch between test samples and trained models caused by the diversity of language classes is addressed. This paper proposes a AGB language recognition method related to test samples, and then reliably selects similar training samples from a subset of multi-language training samples in order to test the samples. The LDOF criterion is further defined, and the effectiveness of the proposed algorithm is verified by experiments.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.34
【相似文献】
相关期刊论文 前10条
1 ;真品三星软驱识别方法[J];电脑迷;2004年06期
2 施水才;俞鸿魁;吕学强;李渝勤;;基于大规模语料的新词语识别方法[J];山东大学学报(理学版);2006年03期
3 苏家洪;;试述人脸识别新技术及编辑识别方法[J];中国新技术新产品;2012年07期
4 高春庚;孙建国;;基于统计的人脸识别方法综述[J];安阳工学院学报;2012年04期
5 马彬;洪宇;杨雪蓉;姚建民;朱巧明;;基于语义依存线索的事件关系识别方法研究[J];北京大学学报(自然科学版);2013年01期
6 马彬;洪宇;杨雪蓉;姚建民;朱巧明;;基于推理线索构建的事件关系识别方法[J];北京大学学报(自然科学版);2014年01期
7 吕冬梅,刘燕萍,李云凯;一个新的机械图纸识别方法[J];信息技术;2001年03期
8 刘志鹏,魏君;基于神经网络的集装箱编号识别方法的研究[J];中国包装工业;2002年09期
9 贺敏;龚才春;张华平;程学旗;;一种基于大规模语料的新词识别方法[J];计算机工程与应用;2007年21期
10 董世都;黄同愿;王华秋;王森;杨小帆;;半边人脸识别方法[J];计算机工程;2008年07期
相关会议论文 前10条
1 郑凯;;建立多维数据异常点识别方法的尝试[A];第八届全国体育科学大会论文摘要汇编(一)[C];2007年
2 张朋柱;韩崇昭;万百五;;智能决策支持系统中的问题识别方法与实现[A];全国青年管理科学与系统科学论文集(第2卷)[C];1993年
3 刘丽兰;刘宏昭;;时间序列模型的识别方法[A];制造技术自动化学术会议论文集[C];2004年
4 苗振伟;许勇;杨军;;超声波人脸识别方法研究[A];中国声学学会2007年青年学术会议论文集(上)[C];2007年
5 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 张茜;郑峥;亢一澜;王娟;仇巍;;基于海量实测数据的反演识别方法与盾构装备载荷的力学建模[A];中国力学大会——2013论文摘要集[C];2013年
7 赵锐;陈光发;;军事口令识别的Fuzzy方法探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 骆玉荣;刘建丽;史晓涛;;一种自动车窗识别方法的设计与实现[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 崔凯华;王国庆;方剑青;李红军;贾俊波;马超;赵烨;张东辉;;基于声模态分析的材料识别方法研究[A];现代振动与噪声技术(第九卷)[C];2011年
10 李洪东;梁逸曾;张志敏;;酵母蛋白组中原生肽识别方法的探索研究[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
相关重要报纸文章 前9条
1 陈春道;甲鱼优劣及雌雄的识别方法[N];北京科技报;2003年
2 庞席堂;假币的识别方法[N];中华合作时报;2003年
3 王修增;手机被盗号的6种识别方法[N];中国保险报;2003年
4 张侃;正品手机电池识别方法[N];通信产业报;2000年
5 潘 治;德国开发出癌症早期识别方法[N];中国中医药报;2003年
6 新华社记者 段世文;产权证识别方法[N];新华每日电讯;2001年
7 金亮;机器人的情感[N];中国医药报;2001年
8 黄璐;识别假火车票有绝招[N];山西经济日报;2004年
9 宗绍纯;如何识别是纯奶还是奶饮料?[N];国际商报;2003年
相关博士学位论文 前10条
1 赵国腾;跨座式单轨交通轨道梁表面裂纹识别方法研究[D];重庆大学;2015年
2 徐训;线性与非线性结构动力荷载识别方法及实验研究[D];哈尔滨工业大学;2015年
3 黄仕建;视频序列中人体行为的低秩表达与识别方法研究[D];重庆大学;2015年
4 张航;基于高光谱成像技术的皮棉中地膜识别方法研究[D];中国农业大学;2016年
5 吴翔;基于机器视觉的害虫识别方法研究[D];浙江大学;2016年
6 张莉莉;竞优特征的群识别方法及其应用[D];东北大学;2010年
7 陈绵书;计算机人脸识别方法研究[D];吉林大学;2004年
8 叶俊勇;人脸检测与识别方法研究[D];重庆大学;2002年
9 何光辉;四种人脸识别方法研究[D];重庆大学;2010年
10 佟丽娜;基于力学量信息获取系统的人体摔倒过程识别方法研究[D];中国科学技术大学;2011年
相关硕士学位论文 前10条
1 徐珂琼;基于视频的人脸识别方法研究[D];天津理工大学;2015年
2 彭姣丽;针对多表情的人脸识别方法研究[D];昆明理工大学;2015年
3 代秀丽;基于半监督判别分析的人脸识别方法研究[D];深圳大学;2015年
4 易磊;基于两阶段的交通标志识别方法研究[D];南京理工大学;2015年
5 李彦;基于小波变换的人脸识别方法研究[D];电子科技大学;2014年
6 田晓霞;运动想象EEG的识别方法及在上肢康复中的应用[D];北京工业大学;2015年
7 杨俊涛;基于分数谱时频特征的SAR目标检测与识别方法研究[D];电子科技大学;2014年
8 宋洪伟;基于模糊集合的汉语主观句识别方法研究与实现[D];黑龙江大学;2015年
9 贾博轩;基于手机传感器的人类复杂行为识别方法的研究[D];黑龙江大学;2015年
10 范玲;Link-11数据链信号的识别方法研究[D];西安电子科技大学;2014年
,本文编号:1413999
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1413999.html