Haar声学特征超向量生成及大规模说话人识别技术研究

发布时间:2016-11-25 21:20

  本文关键词:2D-Haar声学特征超向量生成及大规模说话人识别技术研究,由笔耕文化传播整理发布。


《北京理工大学》 2015年

2D-Haar声学特征超向量生成及大规模说话人识别技术研究

谢尔曼  

【摘要】:随着信息技术的发展,信息系统越来越深入地融入社会生活,信息安全的重要性日益凸显。在身份认证和敏感信息监控领域,生物识别技术正得到越来越多的研究与应用。说话人识别(Speaker Recognition, SR,又称声纹识别)由于部署简单、成本低廉,一直是生物识别技术的一个重要分支。 近年来,随着各类模式识别算法(例如模板匹配法、概率统计法、机器学习分类器方法等)以及特征向量处理技术(例如基于机器学习和数据挖掘方法的特征筛选、特征向量构造等)研究的日益深入,各类说话人识别系统的准确性逐渐提高,应用不断扩展。 在目前的说话人识别研究中,当目标说话人的规模不断增加时,说话人识别的准确率随之衰减。本文针对该问题,研究相应的特征向量生成方法、说话人分类器的训练方法以及说话人识别的并行计算方法,论文的主要工作成果和创新包括: 1.提出了一种利用声学特征图,声学特征可筛选,能有效提高识别准确率的2D-Haar声学特征超向量生成方法 目前常见的音频特征向量生成方法,难以进行时序信息与跨维度信息的联合分析。通过对一定数量的连续音频帧的常用声学帧特征值进行跨维度、跨帧的加减运算,建立维数达到数十万的声学特征Haar-like模式,再根据不同的音频识别任务,用机器学习算法在高维Haar-like模式空间中进行特征筛选,即可生成2D-Haar声学特征超向量。该特征超向量的潜在维数可以更高,并可针对具体的识别应用筛选出不同的Haar-like模式,提升特征向量的表达能力,从而提高识别准确率。实验结果表明,在音频事件识别、说话人识别、说话人性别识别三种应用中,2D-Haar声学特征超向量都获得了比常用声学帧特征更高的总体准确率,可使SVM、AdaBoost、C5.0三种算法的总体准确率最高获得4.2%到9.5%的提升。 2.提出了一种利用随机模式筛选特征的2D-Haar声学特征超向量生成快速计算方法 2D-Haar声学特征超向量生成过程中,声学特征的Haar-like模式的筛选耗时较长,可通过优化Haar-like模式的筛选过程以提升计算效率,即在每轮迭代过程中,并不是对所有的Haar-like模式进行筛选,而是对随机选定的、特定个数的Haar-like模式进行迭代运算,在保证识别效果的前提下精简筛选过程、提升计算速度。实验结果表明,,与常用声学帧特征相比,快速计算方法的训练速度是前者的2.9-6.8倍,识别速度是前者的4.9-8.9倍,并可获最高4.8%-8.8%的准确率提升。 3.提出了一种通过两次迭代训练能有效降低目标说话人规模对识别准确率影响的说话人识别方法 随着目标说话人规模的增加,特征空间中的样本密度持续提高,从而造成识别准确率不断衰减。提出一种通过两次迭代训练能有效降低目标说话人规模对识别准确率影响的说话人识别方法。在特征向量生成环节,针对不同说话人筛选出不同的Haar-like模式组合,生成因人而异的2D-Haar声学特征超向量,代替常用声学帧特征以提高不同说话人特征向量之间的差异、降低特征空间中的样本密度。在说话人分类器训练环节,利用AdaBoost.MH算法“当弱分类器个数大于特征维数时准确率更优”的特性,训练一个弱分类器个数大于2D-Haar声学特征超向量维数的说话人分类器,提高说话人分类器样本划分的准确性。实验结果表明,与GMM-SVM算法相比,该方法的识别速度更快,准确率更高,识别准确率随说话人规模增加而衰减的趋势更缓,在不同目标说话人规模下,该方法的平均识别准确率比GMM-SVM算法高2.5%。 4.提出了一种利用CPU多核技术,支持大规模目标说话人识别应用的说话人识别并行处理方法 CPU多核技术可提升大规模说话人的识别效率,提出ERF算法,构建说话人识别并行处理方法。ERF算法不存在贯穿始终的迭代运算,可通过程序并行化获得更高的效率提升。利用操作系统脚本进行16核并行运算时,并行ERF方法的训练倍速为5.53,是并行GMM-SVM方法的2.3倍、并行Turbo-Boost方法的2.2倍;并行ERF方法的识别倍速为8.33,是并行GMM-SVM方法的1.9倍、并行Turbo-Boost方法的1.3倍。此外,ERF算法在训练开始前对非目标说话人的特征超向量进行有放回随机取样,平衡训练集内非目标说话人与目标说话人的数据量,能够缓解大规模说话人分类器训练样本数据的不平衡问题。实验结果表明,随着说话人规模的不断增加,所提方法识别准确率的衰减趋势更缓;不同目标说话人规模下,该方法平均识别准确率比采用GMM-SVM算法提高2.7%。

【关键词】:
【学位授予单位】:北京理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前9条

1 罗森林;李金玉;潘丽敏;;特定类型音频流泛化识别方法[J];北京理工大学学报;2011年10期

2 陈存宝;赵力;;嵌入自联想神经网络的高斯混合模型说话人辨认[J];电子与信息学报;2010年03期

3 ;SJ/T 11380-2008《自动声纹识别(说话人识别)技术规范》概述[J];信息技术与标准化;2008年08期

4 忻栋,杨莹春,吴朝晖;基于SVM-HMM混合模型的说话人确认[J];计算机辅助设计与图形学学报;2002年11期

5 黄伟;戴蓓蒨;李辉;;基于分类高斯混合模型和神经网络融合的与文本无关的说话人识别[J];模式识别与人工智能;2003年04期

6 刘明辉;戴蓓蒨;解焱陆;;基于GMM多维概率输出的SVM话者确认[J];模式识别与人工智能;2008年01期

7 栗志意;张卫强;何亮;刘加;;基于核函数的IVEC-SVM说话人识别系统研究[J];自动化学报;2014年04期

8 杨世清;戴蓓蒨;许敏强;刘青松;;基于自适应高斯混合模型特征映射的说话人确认[J];模式识别与人工智能;2009年03期

9 张玲华,杨震,郑宝玉;基于模糊分类器及多层前馈神经网络混合结构的说话人辨认[J];通信学报;2005年11期

中国博士学位论文全文数据库 前1条

1 许东星;基于GMM和高层信息特征的文本无关说话人识别研究[D];中国科学技术大学;2009年

【共引文献】

中国期刊全文数据库 前10条

1 蔡坤琪;;基于相关鉴别分析和随机森林的人脸识别方法[J];安徽电子信息职业技术学院学报;2012年01期

2 董建明;刘明柱;刘方圆;丁素玲;;地下水动态预测模型研究[J];安徽农业科学;2011年29期

3 李飞;高小榕;高上凯;;基于随机森林算法的高维脑电特征优选[J];北京生物医学工程;2007年04期

4 陈建新;西广成;王伟;赵慧辉;陈静;;数据挖掘分类算法在冠心病临床应用的比较[J];北京生物医学工程;2008年03期

5 熊文;王枞;;改进粒子群与支持向量机混合的特征变换[J];北京邮电大学学报;2009年06期

6 孔浩;杨勇;王国胤;;基于多分类器融合的语音识别方法研究[J];重庆邮电大学学报(自然科学版);2011年04期

7 蔡金锭;鄢仁武;;基于小波分析与随机森林算法的电力电子电路故障诊断[J];电力科学与技术学报;2011年02期

8 洪英;韩周安;;偏亚高斯语音信号有效分离ICA方法研究[J];电子科技大学学报;2008年05期

9 胥海威;何宽;;改进随机决策树群算法在监督分类中的应用[J];地理与地理信息科学;2010年06期

10 张郴;张捷;;中国入境旅游需求预测的神经网络集成模型研究[J];地理科学;2011年10期

中国重要会议论文全文数据库 前10条

1 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年

2 贾少春;胡秀珍;;A Method of Predicting theβ-hairpin Motifs in Proteins[A];第四届全国生物信息学与系统生物学学术大会论文集[C];2010年

3 李胜朋;王洪礼;冯剑丰;;基于不连续回归树的最大李雅谱诺夫指数计算方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年

4 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

5 何新;史迎春;黄兵;周献中;;基于SVM/HMM混合模型的音频分类方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年

6 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年

7 杨丹;徐彬;王旭;;一种基于听觉特性的语谱算法研究[A];2009全国虚拟仪器大会论文集(二)[C];2009年

8 何选森;尹许梅;刘福星;;语音检测与识别的特征提取方法[A];2010中国仪器仪表与测控技术大会论文集[C];2010年

9 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

10 曹东升;许青松;梁逸曾;;Computer-Aided Prediction of Toxicity with Substructure Pattern and Random Forest[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

中国博士学位论文全文数据库 前10条

1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年

2 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年

3 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年

4 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年

5 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年

6 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年

7 王树云;基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用[D];山东大学;2010年

8 韩晓明;基于符号有向图和支持向量机的故障诊断方法的研究[D];太原理工大学;2011年

9 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年

10 聂黎;基于基因表达式编程的车间动态调度方法研究[D];华中科技大学;2011年

中国硕士学位论文全文数据库 前10条

1 马冉冉;集成学习算法研究[D];山东科技大学;2010年

2 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年

3 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年

4 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年

5 李红;数据挖掘中特征选择与聚类算法研究[D];大连理工大学;2010年

6 张峰;基于支持向量机的网站发布系统设计与实现[D];大连理工大学;2010年

7 李海燕;互信息特征选择的研究及在代谢组学中的应用[D];大连理工大学;2010年

8 朱新荣;径向基函数神经网络集成算法的研究及应用[D];大连理工大学;2010年

9 严康;基于支持向量机的特征选择算法研究[D];大连理工大学;2010年

10 唐晓敏;基于霍夫变换及条件概率模型的多目标检测[D];大连理工大学;2010年

【二级参考文献】

中国期刊全文数据库 前7条

1 甄斌,吴玺宏,刘志敏,迟惠生;语音识别和说话人识别中各倒谱分量的相对重要性[J];北京大学学报(自然科学版);2001年03期

2 付强,易克初;语音信号的Bark子波变换及其在语音识别中的应用[J];电子学报;2000年10期

3 张玲华;郑宝玉;杨震;;基于语音谐波结构的鲁棒特征参数及其在说话人识别中的应用[J];电子与信息学报;2006年10期

4 邵央,刘丙哲,李宗葛;基于MFCC和加权矢量量化的说话人识别系统[J];计算机工程与应用;2002年05期

5 刘勇,赵斌,夏绍玮;模糊超椭球分类算法及其在无约束手写体数字识别中的应用[J];清华大学学报(自然科学版);2000年09期

6 栗志意;何亮;张卫强;刘加;;基于鉴别性i-vector局部距离保持映射的说话人识别[J];清华大学学报(自然科学版);2012年05期

7 鲍长春,樊昌信;基于归一化互相关函数的基音检测算法[J];通信学报;1998年10期

中国博士学位论文全文数据库 前1条

1 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年

【相似文献】

中国期刊全文数据库 前10条

1 覃爱娜,韩华;说话人识别技术及其在工厂自动控制系统中的应用[J];长沙电力学院学报(自然科学版);2003年02期

2 杨海燕,杨斌,景新幸;说话人识别技术在智能家居中的应用[J];电声技术;2004年05期

3 王晶晶,陈中柱,薛文涛,江红英;一种与文本有关的说话人识别系统设计与实现[J];计算机仿真;2004年06期

4 戴红霞,赵力;采用帧概率变换的与文本无关说话人识别系统的实现[J];电声技术;2004年09期

5 叶蕾,方鹏,杨震;基于因特网的说话人识别技术研究[J];南京邮电学院学报;2004年03期

6 孙林慧,叶蕾,杨震;说话人识别中测试时长与识别率关系研究[J];计算机仿真;2005年05期

7 陆小珊,王俊法,田岚;音高特征在说话人识别中的可分性及应用研究[J];山东大学学报(工学版);2005年04期

8 芮贤义,俞一彪;基于小波变换的鲁棒型特征提取及说话人识别[J];电路与系统学报;2005年05期

9 刘雅琴,杜海明;基于矢量量化的说话人识别[J];洛阳师范学院学报;2005年05期

10 陈立伟;赵春晖;姜海丽;;一种基于混合神经网络的说话人识别系统[J];哈尔滨工程大学学报;2005年06期

中国重要会议论文全文数据库 前10条

1 鲍福良;方志刚;徐洁;;说话人识别综述[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年

2 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年

3 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

4 张玲华;郑宝玉;杨震;;模糊超椭球聚类算法及其在说话人识别中的应用研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年

5 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

6 戴红霞;赵力;;文本无关说话人识别系统的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年

7 陈联武;郭武;戴礼荣;;说话人识别系统中多样训练的应用[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年

8 崔玉红;胡光锐;;基于神经网络特征维数压缩方法及其在说话人识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

9 吴丽丽;;基于仿生模式识别的说话人识别学习模型研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年

10 张晶;董金明;冯文全;;说话人识别系统研究与实现[A];全国第二届信号处理与应用学术会议专刊[C];2008年

中国重要报纸全文数据库 前3条

1 汪永安;[N];安徽日报;2008年

2 吴长锋;[N];科技日报;2008年

3 新城;[N];计算机世界;2006年

中国博士学位论文全文数据库 前10条

1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年

2 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年

3 刘镝;说话人识别中信息融合算法的研究[D];北京交通大学;2011年

4 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年

5 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年

6 邱政权;在噪声环境下的说话人识别[D];华南理工大学;2007年

7 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年

8 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年

9 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年

10 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年

中国硕士学位论文全文数据库 前10条

1 王冠星;基于特定说话人识别的门禁系统研究[D];中南大学;2008年

2 王颖;基于小波变换的说话人识别方法研究[D];长春理工大学;2009年

3 何金瑞;说话人识别中的模式匹配方法研究[D];西华大学;2009年

4 赵剑;说话人识别鲁棒性增强研究[D];北京邮电大学;2009年

5 周畅宇;基于支持向量机的说话人识别研究[D];中南大学;2009年

6 王发智;说话人识别方法的研究[D];哈尔滨工程大学;2008年

7 于明刚;噪声环境下说话人识别研究[D];哈尔滨工程大学;2008年

8 李轶杰;说话人识别中的信道补偿[D];中国科学技术大学;2009年

9 王佳毅;噪音环境下说话人识别方法[D];上海交通大学;2009年

10 危国腾;基于说话人识别的门禁系统的设计[D];沈阳航空工业学院;2010年


  本文关键词:2D-Haar声学特征超向量生成及大规模说话人识别技术研究,由笔耕文化传播整理发布。



本文编号:192878

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/192878.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a5164***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com