当前位置:主页 > 科技论文 > 信息工程论文 >

基于文本无关的说话人识别技术的研究

发布时间:2017-07-06 02:11

  本文关键词:基于文本无关的说话人识别技术的研究


  更多相关文章: 文本无关 清浊音划分 基因周期检测 音素分类


【摘要】:在实际生活中,身份认证应用在各个领域,身份认证的方法有很多种,比如指纹、虹膜、人脸等等,声纹识别也是其中一种,又叫说话人识别,是通过说话人的声音辨识出说话者身份。说话人识别又分为与文本相关的和与文本无关的,本文主要研究与文本无关的说话人识别技术,因为其更具有使用价值,并且提升空间比较大。通过对其关键技术的研究,以提高系统识别性能。本文在现有与文本无关的说话人识别技术的基础上,结合语音学、音韵学及其语音信号的特征,研究基于文本无关的说话人识别关键技术。主要的研究内容包括以下几个方面:清浊音划分。在对语音信号排除静音信号基础上,针对过零率划分清浊音方法,在处理振幅均值不在零点的信号时失效的问题,提出了有效翻转率方法;又针对清、浊音有效翻转率相似部分,运用频谱振幅均值方法区分清浊音。基音周期检测。在对语音信号静音、清音、浊音划分的基础上,针对语音信号周期特征明显段分布随机性问题,提出改进的LVAMDF(变长度平均幅度差函数法)及综合多因素基音检测算法,该算法对语音信号进行周期特征明显段和周期特征不明显段的聚类划分,同时,获取周期特征明显语音段的所有基音周期的起止端点,针对少数基音周期划分倍频或半频问题,提出识别、修正方法,其识别、修正率极高。与文本无关的说话人识别系统。根据与文本无关的说话人识别系统原理,运用matlab和C++混合编程,完成说话人识别系统和系统测试,系统的等错误率可达0.4762%。基于音素分类的说话人识别系统理论研究。在TIMIT语料库的音素标注基础上,运用混淆矩阵原理,研究了不同说话人不同发音特征的相似性和差异性,从而以强调差异性避开相似性的方法提高系统性能。该部分完成了部分理论研究和部分功能实现。本文提高了系统2处关键技术的性能,完成了与文本无关的说话人识别系统的功能,最后提出了系统识别原理的改进方案。由于工作量较大,改进方案还需完善和验证,系统性能还需要从音素识别、特征提取和系统原理方面进一步提升。
【关键词】:文本无关 清浊音划分 基因周期检测 音素分类
【学位授予单位】:西南科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
  • 摘要4-6
  • ABSTRACT6-11
  • 1 绪论11-17
  • 1.1 选题背景及研究意义11-13
  • 1.2 课题的研究现状13-15
  • 1.3 论文的主要研究工作及安排15-16
  • 1.4 本章小结16-17
  • 2 与文本无关的说话人识别原理17-39
  • 2.1 原理结构17-18
  • 2.2 预处理18-23
  • 2.3 特征提取23-32
  • 2.3.1 mfcc原理结构23-24
  • 2.3.2 人类发音原理24-25
  • 2.3.3 倒谱分析原理25-29
  • 2.3.4 梅尔频率29-32
  • 2.4 GMM-UBM模型及其识别打分32-38
  • 2.4.1 GMM介绍33-34
  • 2.4.2 EM算法34-35
  • 2.4.3 MAP自适应35-37
  • 2.4.4 似然比得分37-38
  • 2.5 本章小结38-39
  • 3 语音信号清浊划分39-51
  • 3.1 清浊音划分的原理39-40
  • 3.2 排除静音语音段40
  • 3.3 清浊音划分40-42
  • 3.3.1 判断有没有清音信号40-41
  • 3.3.2 划分清音信号结束位置41-42
  • 3.4 短时平均过零率法42-44
  • 3.5 短时有效翻转率法44-49
  • 3.6 实验结果49
  • 3.7 本章小结49-51
  • 4 语音信号基音周期检测51-63
  • 4.1 基音周期检测原理51-52
  • 4.2 预处理52
  • 4.3 检测基音周期52-53
  • 4.4 LVAMDF算法改进53-58
  • 4.4.1 在周期端点检测部分LVAMDF的优化53-55
  • 4.4.2 在倍频和半频识别修正部分LVAMDF的优化55-58
  • 4.5 LVAMDF算法58
  • 4.6 实验结果58-61
  • 4.7 本章小结61-63
  • 5 基于音素分类的说话人识别系统63-72
  • 5.1 音素分类的说话人识别原理63-64
  • 5.2 音素识别64-65
  • 5.3 音素分类方法65-69
  • 5.3.1 模型建立部分的音素分类方法65-66
  • 5.3.2 说话人差异分析音素分类66-69
  • 5.4 音素分类实现69-71
  • 5.4.1 建立背景模型的实现69
  • 5.4.2 生成注册者特征模型的实现69-70
  • 5.4.3 识别测试者的实现70
  • 5.4.4 说话人差异分析音素分类实现70-71
  • 5.5 本章小结71-72
  • 6 与文本无关的说话人识别系统的测试72-79
  • 6.1 系统评估标准72-76
  • 6.1.1 检测代价函数73
  • 6.1.2 等错误率与DET曲线73-76
  • 6.2 测试数据76-77
  • 6.3 测试结果77-78
  • 6.4 本章小结78-79
  • 结论79-81
  • 致谢81-83
  • 参考文献83-88
  • 攻读硕士学位期间发表的学术论文及研究成果88

【参考文献】

中国期刊全文数据库 前9条

1 潘峥嵘;戴芮;张宁;;改进的基音周期检测算法研究[J];计算机工程与应用;2015年10期

2 马莎莎;戴曙光;穆平安;;基于短时能量的循环AMDF基音检测算法[J];计算机仿真;2014年07期

3 郑继明;王劲松;;语音基音周期检测方法[J];计算机工程;2010年10期

4 陈雪勤;刘正;赵鹤鸣;;基于相似度的高精度基音检测算法[J];声学技术;2008年05期

5 张康杰;赵欢;饶居华;;基于LV-AMDF的自适应基音检测算法[J];计算机应用;2007年07期

6 吴恬盈;;一种新的清浊音在线辨识法[J];计算机仿真;2007年04期

7 于明;袁玉倩;董浩;王哲;;一种基于MFCC和LPCC的文本相关说话人识别方法[J];计算机应用;2006年04期

8 成新民,曾毓敏,赵力;一种改进的AMDF求取语音基音的方法[J];微电子学与计算机;2005年11期

9 顾良,刘润生;利用声调判别提高汉语数码语音识别性能[J];清华大学学报(自然科学版);1998年09期

中国博士学位论文全文数据库 前1条

1 潘逸倩;声纹密码技术研究[D];中国科学技术大学;2012年



本文编号:524386

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/524386.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户30a24***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com