当前位置:主页 > 科技论文 > 信息工程论文 >

基于混合特征参数和GMM-UBM的说话人识别系统的研究

发布时间:2017-07-27 02:08

  本文关键词:基于混合特征参数和GMM-UBM的说话人识别系统的研究


  更多相关文章: 说话人识别 端点检测 Mel倒谱距离 MFCC TEO GMM-UBM


【摘要】:随着互联网技术和信息技术的飞速发展,以语音为载体的说话人识别技术应运而生。由于它的无侵害性和对用户最自然直观的方式,使得说话人识别技术成为最容易被接受的生物认证方式之一,并在社会各个领域得到广泛应用,如司法侦查、电子商务、金融等。虽然说话人识别技术在理论上已取得了不错的成果,但在实际应用中还存在一些问题,需要进一步的研究。本文从说话人识别的整体框架入手,在总结分析现有说话人识别技术的基础上,对语音信号的前端处理、特征提取、模型匹配等问题进行研究,具体的工作内容和创新如下:(1)由于端点检测的准确性影响到整个系统的识别率,本文针对短时TEO能量算法抗噪性差的缺点,提出一种强噪声下的端点检测新算法。该算法在短时TEO能量端点检测的基础上,增加Mel倒谱距离判断环节,采用先粗判后精判的互补性两级判决机制,然后与传统双门限法和谱熵法在不同背景噪声不同信噪比下进行对比实验。实验表明,在信噪比相对较低的环境下,该改进算法在没有增加运算复杂度的同时提高了系统检测的准确度。(2)特征参数的选取影响系统识别的好坏,为了最大可能地提取出能反映说话人个性特征的参数,本文提出将表征说话人语音特性的Mel倒谱系数和体现语音信号时域特征的短时TEO能量的混合特征参数应用于说话人识别中。目的是通过增加表征说话人语音特征参数的维数来改善系统性能;并采用相关距离Fisher比选取贡献值大的向量,重新组合得到更能完整描述说话人语音特征的混合参数。(3)分析基于GMM-UBM说话人识别系统的主要技术,建立基于GMM-UBM的说话人识别系统模型。通过训练全部说话人的语音信号得到UBM,再利用MAP得到待识别的语音的GMM模型。计算出每个说话人的对数概率得分,通过分析比较区分不同说话人,确定其身份。通过实验对比MFCC、MFCC+?MFCC、TEO-MFCC三组特征参数各自的识别效果,证明本文提出的混合特征参数在不增加复杂度的同时能够得到更高的识别率,鲁棒性更好。另外,本文还分析了相关距离Fisher比加权降维算法和高斯混合模型阶数以及测试时长对识别结果的影响,最后将端点检测和特征提取两种改进算法组合起来,系统地进行说话人识别实验。
【关键词】:说话人识别 端点检测 Mel倒谱距离 MFCC TEO GMM-UBM
【学位授予单位】:桂林电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 绪论8-15
  • §1.1 研究背景及意义8-9
  • §1.2 发展历程和研究现状9-12
  • §1.2.1 国外发展历程9-10
  • §1.2.2 国内发展历程10
  • §1.2.3 研究现状10-12
  • §1.3 说话人识别技术难点12-13
  • §1.4 论文的研究内容与安排13-15
  • 第二章 说话人识别系统概述15-22
  • §2.1 说话人识别的分类15-16
  • §2.2 说话人识别系统组成和原理结构16-18
  • §2.3 语音信号特征18-20
  • §2.3.1 语音特征参数的提取18-19
  • §2.3.2 特征参数选择评估19-20
  • §2.4 说话人识别模型20-21
  • §2.5 本章小结21-22
  • 第三章 语音信号前端处理的研究22-48
  • §3.1 语音信号的预处理22-27
  • §3.1.1 A/D转换22-23
  • §3.1.2 预加重处理23-25
  • §3.1.3 加窗分帧25-27
  • §3.2 传统的语音端点检测技术27-29
  • §3.2.1 基于短时能量和短时过零率的双门限端点检测算法27-28
  • §3.2.2 基于谱熵的语音端点检测算法28-29
  • §3.3 改进的语音端点检测技术29-36
  • §3.3.1 短时TEO能量30-33
  • §3.3.2 Mel倒谱距离33
  • §3.3.3 基于Mel-TEO的带噪语音端点检测算法33-36
  • §3.4 实验结果与分析36-47
  • §3.4.1 测试集及评估方法36-37
  • §3.4.2 端点检测仿真实验37-45
  • §3.4.3 实验结果分析45-47
  • §3.5 本章小结47-48
  • 第四章 特征参数的提取48-56
  • §4.1 Teager能量算子48
  • §4.2 Mel频率倒谱系数48-51
  • §4.3 Mel频率倒谱系数的二次特征提取51-53
  • §4.3.1 一阶差分Mel频率倒谱系数51-53
  • §4.3.2 特征参数降维53
  • §4.4 MFCC和短时TEO能量的混合特征参数53-55
  • §4.5 本章小结55-56
  • 第五章 基于GMM-UBM混合特征参数的说话人识别实验56-71
  • §5.1 GMM在说话人识别中的应用56-60
  • §5.1.1 GMM的训练57
  • §5.1.2 GMM的参数估计57-60
  • §5.2 GMM-UBM在说话人识别中的应用60-61
  • §5.2.1 UBM在说话人识别中的应用60
  • §5.2.2 GMM-UBM的实现60-61
  • §5.3 实验结果与分析61-69
  • §5.3.1 实验环境介绍61-62
  • §5.3.2 实验结果62-69
  • §5.4 本章小结69-71
  • 第六章 总结与展望71-73
  • §6.1 工作总结71-72
  • §6.2 展望72-73
  • 参考文献73-77
  • 致谢77-78
  • 攻读硕士期间发表的论文78
  • 参与的科研项目78

【相似文献】

中国期刊全文数据库 前10条

1 石艳;王晓晔;;新颖检测法在说话人识别技术中的应用[J];现代计算机(专业版);2008年07期

2 刘雪燕;张娜;袁宝玲;;说话人识别综述[J];电脑知识与技术;2009年01期

3 邱政权;范小春;王俊年;;基于动态环境下的说话人识别[J];科学技术与工程;2010年02期

4 单进;;说话人识别技术研究[J];科技资讯;2010年21期

5 申志生;于明;;说话人识别算法的定点DSP实现[J];单片机与嵌入式系统应用;2011年03期

6 谢建勋;;浅谈说话人识别技术[J];电脑知识与技术;2011年11期

7 安茂波;刘建;;一个快速说话人识别系统的设计和实现[J];网络新媒体技术;2012年03期

8 杨迪;戚银城;刘明军;张华芳子;武军娜;;说话人识别综述[J];电子科技;2012年06期

9 武光利;;说话人识别方法概述[J];硅谷;2012年19期

10 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期

中国重要会议论文全文数据库 前10条

1 鲍福良;方志刚;徐洁;;说话人识别综述[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年

2 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年

3 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

4 张玲华;郑宝玉;杨震;;模糊超椭球聚类算法及其在说话人识别中的应用研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年

5 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

6 戴红霞;赵力;;文本无关说话人识别系统的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年

7 陈联武;郭武;戴礼荣;;说话人识别系统中多样训练的应用[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年

8 崔玉红;胡光锐;;基于神经网络特征维数压缩方法及其在说话人识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

9 吴丽丽;;基于仿生模式识别的说话人识别学习模型研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年

10 张晶;董金明;冯文全;;说话人识别系统研究与实现[A];全国第二届信号处理与应用学术会议专刊[C];2008年

中国重要报纸全文数据库 前2条

1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年

2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年

中国博士学位论文全文数据库 前10条

1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年

2 别凡虎;说话人识别中区分性问题的研究[D];清华大学;2015年

3 谢怡宁;基于稀疏编码的鲁棒说话人识别方法研究[D];哈尔滨理工大学;2016年

4 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年

5 刘镝;说话人识别中信息融合算法的研究[D];北京交通大学;2011年

6 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年

7 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年

8 邱政权;在噪声环境下的说话人识别[D];华南理工大学;2007年

9 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年

10 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年

中国硕士学位论文全文数据库 前10条

1 丛菡菡;基于支持相量机的稳键说话人识别[D];电子科技大学;2008年

2 任舒彬;面向手持应用的说话人识别算法研究[D];浙江大学;2006年

3 申志生;文本相关说话人识别嵌入式系统及其关键技术研究[D];河北工业大学;2011年

4 汪q,

本文编号:579332


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/579332.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a1e66***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com