基于矢量量化的说话人识别的研究
本文关键词:基于矢量量化的说话人识别的研究,,由笔耕文化传播整理发布。
【摘要】:说话人识别作为生物识别的一种,应用范围非常的广泛,是依据语音波形中所反映的说话人生理及行为的语音特征参数,以此来自动鉴别说话人的身份。本文研究的是基于矢量量化的说话人识别。本文采用矢量量化的模板训练方法,设计了一个基于矢量量化的与文本无关的说话人识别系统,主要工作如下:(1)语音库的建立,语音库是由本人在背景噪声相对小的环境下自行录制的汉语普通话语音数据库。使用Cool Edit Pro2.1软件录制,设置采样频率为8kHz、量化精度为16bit,信道选择单声道混合,该语音库由30名男性和16名女性的语音组成,并截取10s用于训练,截取5s用于测试。(2)阐述语音信号的前期处理工作,主要对语音信号进行预加重、分帧加窗和端点检测,并对语音信号短时域的特征函数:短时能量函数、短时平均过零率进行了分析。然后介绍了端点检测的三个方法:双门限法、谱减法、谱熵法,对三种端点检测方法作仿真分析,针对双门限端点检测方法中存在的漏检现象进行了改进,改进后的算法有效地避免了漏检问题。(3)接着对常用的语音信号的特征参数进行介绍和研究,重点分析了线性预测系数(Linear Prediction Coefficient)、线性预测倒谱系数(Linear Prediction Cepstral Coefficients, LPCC)和梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)及其提取方法,本文选用的是MFCC。之后重点分析了矢量量化的原理、过程及算法,针对量化过程进行了改进,即采用多级矢量量化的方法。(4)最后在Matlab平台下,设计与文本无关的说话人识别系统,在量化过程中采用多级矢量量化,测试了自行录制的46个说话人的语音库,得到了较高的识别率。
【关键词】:说话人识别 矢量量化 线性预测系数 线性预测倒谱系数 梅尔频率倒谱系数
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要3-4
- Abstract4-9
- 第一章 绪论9-17
- 1.1 语音数字信号处理概述9-10
- 1.2 说话人识别技术10-13
- 1.2.1 说话人识别研究的背景及意义10-11
- 1.2.2 说话人识别的研究历史和现状11-13
- 1.3 说话人识别概述13-15
- 1.3.1 基本概念13
- 1.3.2 说话人识别的分类13-15
- 1.4 论文的研究工作和内容安排15-17
- 1.4.1 研究工作15
- 1.4.2 内容安排15-17
- 第二章 语音信号的数字化处理17-27
- 2.1 语音信号的获取17-18
- 2.1.1 语音的产生17
- 2.1.2 语音信号的数字化和采集17-18
- 2.2 语音信号的数学模型18-21
- 2.2.1 激励模型18-20
- 2.2.2 声道模型20-21
- 2.2.3 辐射模型21
- 2.3 语音信号短时域内的特征函数21-25
- 2.3.1 短时平均能量21-24
- 2.3.2 短时平均过零率24-25
- 2.4 本章小结25-27
- 第三章 语音信号的端点检测和特征提取27-42
- 3.1 语音信号的端点检测27
- 3.1.1 端点检测的概念27
- 3.1.2 端点检测的应用27
- 3.2 常用的几种端点检测方法27-36
- 3.2.1 双门限检测方法及其改进方法27-33
- 3.2.2 谱减法33-34
- 3.2.3 谱熵法34-36
- 3.3 语音信号的特征参数提取36-41
- 3.3.1 线性预测系数36-38
- 3.3.2 线性预测倒谱系数38-39
- 3.3.3 梅尔频率倒谱系数39-41
- 3.4 本章小结41-42
- 第四章 说话人识别模板训练方法42-50
- 4.1 说话人识别的基本方法42-43
- 4.2 矢量量化在说话人识别中的应用43-49
- 4.2.1 矢量量化的原理43-44
- 4.2.2 矢量量化的过程44-46
- 4.2.3 矢量量化的失真测度46
- 4.2.4 Linde-Buzo-Gray(LBG)算法46-47
- 4.2.5 多级矢量量化47-49
- 4.3 本章小结49-50
- 第五章 基于矢量量化的说话人识别系统的实现50-60
- 5.1 语音信号的采集和前期处理50-55
- 5.1.1 实验中信号的采集50-51
- 5.1.2 语音信号的前期处理51-55
- 5.2 特征参数的实际提取55
- 5.3 码本的生成及失真测度55-56
- 5.3.1 码本的生成55-56
- 5.3.2 失真测度56
- 5.4 实验结果56-60
- 第六章 总结与展望60-62
- 6.1 总结60
- 6.2 展望60-62
- 参考文献62-66
- 致谢66
【相似文献】
中国期刊全文数据库 前10条
1 石艳;王晓晔;;新颖检测法在说话人识别技术中的应用[J];现代计算机(专业版);2008年07期
2 刘雪燕;张娜;袁宝玲;;说话人识别综述[J];电脑知识与技术;2009年01期
3 邱政权;范小春;王俊年;;基于动态环境下的说话人识别[J];科学技术与工程;2010年02期
4 单进;;说话人识别技术研究[J];科技资讯;2010年21期
5 申志生;于明;;说话人识别算法的定点DSP实现[J];单片机与嵌入式系统应用;2011年03期
6 谢建勋;;浅谈说话人识别技术[J];电脑知识与技术;2011年11期
7 安茂波;刘建;;一个快速说话人识别系统的设计和实现[J];网络新媒体技术;2012年03期
8 杨迪;戚银城;刘明军;张华芳子;武军娜;;说话人识别综述[J];电子科技;2012年06期
9 武光利;;说话人识别方法概述[J];硅谷;2012年19期
10 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期
中国重要会议论文全文数据库 前10条
1 鲍福良;方志刚;徐洁;;说话人识别综述[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
2 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 张玲华;郑宝玉;杨震;;模糊超椭球聚类算法及其在说话人识别中的应用研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
6 戴红霞;赵力;;文本无关说话人识别系统的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
7 陈联武;郭武;戴礼荣;;说话人识别系统中多样训练的应用[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 崔玉红;胡光锐;;基于神经网络特征维数压缩方法及其在说话人识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
9 吴丽丽;;基于仿生模式识别的说话人识别学习模型研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
10 张晶;董金明;冯文全;;说话人识别系统研究与实现[A];全国第二届信号处理与应用学术会议专刊[C];2008年
中国重要报纸全文数据库 前2条
1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 别凡虎;说话人识别中区分性问题的研究[D];清华大学;2015年
3 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年
4 刘镝;说话人识别中信息融合算法的研究[D];北京交通大学;2011年
5 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
6 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年
7 邱政权;在噪声环境下的说话人识别[D];华南理工大学;2007年
8 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
9 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年
10 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 丛菡菡;基于支持相量机的稳键说话人识别[D];电子科技大学;2008年
2 任舒彬;面向手持应用的说话人识别算法研究[D];浙江大学;2006年
3 申志生;文本相关说话人识别嵌入式系统及其关键技术研究[D];河北工业大学;2011年
4 汪q
本文编号:327863
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/327863.html