基于性别预分类的年龄自动估计研究
本文关键词:基于性别预分类的年龄自动估计研究 出处:《江苏师范大学》2014年硕士论文 论文类型:学位论文
更多相关文章: 年龄估计 性别分类 改进的Citation-kNN算法 频带加权MFCC
【摘要】:年龄估计技术是以计算机作为辅助工具,根据说话人语音,利用已设计好的年龄估计系统自动判别说话人所属年龄段。该技术在信息检索、人机通信、刑事侦查等领域都有重要应用价值和广泛的应用前景。目前,在研究基于语音的年龄估计时主要采用单一语音特征或者单一分类器构成的系统来处理多个年龄段分类任务;虽然相关学者在特征提取和分类算法方面做了大量卓有成效的工作,但是对于语音年龄估计技术特征不稳定、单层系统分类准确率低等问题还没有较好的解决方案,同时也缺乏标准评价平台即公认的年龄语音数据库。针对这些问题,论文从建立年龄语音数据库、提取特征到分类识别进行了系统研究,取得以下成果。1、建立年龄语音数据库以国际上语音语料库设计标准为参照,考虑话者年龄、性别分布选择。最终建立起一个包含三个年龄段、男女分布较均匀的年龄语音数据库。另外,对每段语音标注说话人的相关信息,如年龄、性别、录制时间。此工作有利于扩展语音数据库功能,例如年龄标注可用于年龄估计,性别标注可使数据库用于性别分类。2、建立融合性别预分类的年龄估计系统目前年龄估计系统大多使用单一特征、单一分类器进行分类,分类准确率普遍较低。论文先进行性别预分类,根据分层分类思想优先判断是否为儿童;然后在特定性别下进行青壮年、老年的估计。结合每个子任务的特点选用多种特征和分类器,以提高系统最终的分类效果。3、提出基于改进Citation-kNN算法的成人性别分类方法Citation-kNN算法多用于图像处理,对其改进并首先引入到成人性别分类研究中。提出了基于GMM的语音多示例包生成方法;对Citation-kNN算法的距离测度改进进行模式分类,简化了系统训练方法。实验结果表明,改进后的Citation-kNN算法应用到说话人性别分类是可行的,系统的平均分类准确率与传统的算法相比略有提高。4、提出基于频带加权MFCC的年龄子类别估计系统语音信号经离散傅里叶变换后得到的各个频带信息对年龄估计任务有不同的贡献度,以频带能量为参数,依据F-ratio准则设计区分度函数来计算各个频带的整体贡献度。计算MFCC特征时,在Mel滤波之后对各个滤波器输出的频带能量按贡献度不同进行加权,以强化或削弱相应频带。基于性别信息的年龄子类别估计实验结果表明,改进后的MFCC特征比传统MFCC更能体现语音年龄信息。
[Abstract]:Age estimation technique is based on the computer as a tool, according to the speaker, the speaker is estimated the system automatically determine the age by age. The design has good technology in information retrieval, human-computer communication, the field of criminal investigation have important application value and broad application prospect. At present, in the study of age estimation based on speech time the system mainly adopts a single speech feature or a single classifier to deal with multiple age classification tasks; although some scholars have done a lot of very fruitful work in feature extraction and classification algorithm, but for the voice of age estimation of technical characteristics is not stable, single system low classification accuracy is not a better solution, but also the lack of the standard evaluation platform known as the age of speech database. To solve these problems, this paper from the establishment of age speech database, feature extraction To sign recognition system research, obtains the following results.1, establish the age speech database based on international standard design of speech corpus for reference, then consider the age and gender distribution. Finally set up a three age, men and women in uniform distribution age speech database. In addition, the relevant information. Each speech tagging speaker such as age, gender, recording time. This work is conducive to the expansion of speech database functions, such as tagging can be used for age estimation of age, sex can make the annotation database for gender classification.2, establish the integration of the gender age estimation of pre classification system at present age estimation systems mostly use single feature single classifier., the classification accuracy rate is generally low. The first sex pre classification, according to the classification of priority to determine whether the idea of children; then in the specific nature of don't The young, elderly estimation. According to the characteristics of each sub task feature and classifier selection, in order to improve the effect of the final.3 classification system, put forward the adult gender classification method improved Citation-kNN algorithm based on Citation-kNN algorithm for image processing, to improve and first introduced to study the classification of adult sex. The GMM voice the multi instance bag generation method based on distance measure; on the improvement of Citation-kNN algorithm for pattern classification, simplify the system training methods. The experimental results show that the improved Citation-kNN algorithm is applied to speaker gender classification is feasible, the average classification accuracy of system and the traditional algorithm is compared to a slight increase of.4, the age estimation task different age weighted MFCC tribute band sub categories of speech signal estimation system by discrete Fourier transform obtained after each frequency band based on information In order to offer degrees, frequency band energy parameters, according to the F-ratio criteria for the design of the discrimination function to calculate the overall contribution of each band. In the calculation of MFCC features, Mel filter after the band energy of the output of each filter according to the contribution of different weights to strengthen or weaken the corresponding frequency band. The gender information age estimation of the sub categories the results show that MFCC based on improved feature can reflect the information age speech more than traditional MFCC.
【学位授予单位】:江苏师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.3
【相似文献】
相关期刊论文 前10条
1 谢贵武;杨继红;肖勇;闵刚;;基于语音分段的自适应时长调整算法[J];军事通信技术;2008年02期
2 樊建中;孙晴;杨永杰;;一种智能盲文学习机设计[J];现代电子技术;2010年05期
3 温洪昌;黄应强;傅贵兴;;单片机的多段语音组合录放系统设计[J];单片机与嵌入式系统应用;2011年10期
4 张剑;袁华强;;Rhetorical-State SVM在抽取式语音摘要中的应用[J];科学技术与工程;2013年21期
5 卢坚 ,毛兵 ,孙正兴 ,张福炎;一种改进的基于说话者的语音分割算法[J];软件学报;2002年02期
6 章文义,朱杰;几种无语音检测噪音估计方法的比较研究[J];计算机工程与设计;2003年10期
7 林鑫;陈桦;王开志;王继成;;语音驱动唇形自动合成算法[J];计算机工程;2007年17期
8 蔡铁;;基于在线单类支持向量机的自适应语音活动检测[J];深圳信息职业技术学院学报;2008年02期
9 章钊;郭武;;话者识别中结合模型和能量的语音激活检测算法[J];小型微型计算机系统;2010年09期
10 朱淑琴,裘雪红;一种精确检测语音端点的方法[J];计算机仿真;2005年03期
相关会议论文 前9条
1 田野;王作英;陆大金;;基于韵律结构信息的非语音拒识[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 徐明;胡瑞敏;黄云森;;基于音素识别的语音评价方法[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
3 王欢良;韩纪庆;李海峰;王承发;;面向嵌入式应用的小词汇量语音串识别系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 那斯尔江·吐尔逊;吾守尔·斯拉木;麦麦提艾力;;维吾尔语大词汇量连续语音识别研究——语音语料库的建立[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 简志华;王向文;;考虑帧间信息的语音转换算法[A];浙江省信号处理学会2012学术年会论文集[C];2012年
6 魏维;马海燕;;一种丢失语音信包重建的新算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
7 陈凡;罗四维;;一个实用语音开发应用系统的设计与实现[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 刘红星;戴蓓劏;陆伟;;基于图像增强方法的共振峰谐波能量参数的语音和端点检测[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 林爱华;张文俊;王毅敏;;基于肌肉模型的语音驱动唇形动画[A];第十三届全国图象图形学学术会议论文集[C];2006年
相关重要报纸文章 前5条
1 atvoc;数码语音电路产品概述[N];电子资讯时报;2008年
2 记者 李山;德用双音素改进人工语音表达[N];科技日报;2012年
3 中国科学院自动化研究所模式识别国家重点实验室 于剑邋陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
4 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年
5 ;与“小超人”对话[N];中国计算机报;2001年
相关博士学位论文 前9条
1 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年
2 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
3 李冬冬;基于拓展和聚类的情感鲁棒说话人识别研究[D];浙江大学;2008年
4 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
5 古今;语音感知认证的关键技术研究[D];中国科学技术大学;2009年
6 彭波;Internet上语音的鲁棒性传输研究[D];华南理工大学;2001年
7 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
8 应娜;基于正弦语音模型的低比特率宽带语音编码算法的研究[D];吉林大学;2006年
9 田立斌;语音通信质量客观评价、有效接收及错误恢复算法研究[D];华南理工大学;2004年
相关硕士学位论文 前10条
1 王明明;基于GMM和码本映射相结合的语音转换方法研究[D];西安建筑科技大学;2015年
2 印雪晨;宋词朗读呼吸信号和韵律时长研究[D];西北民族大学;2015年
3 邱一良;噪声环境下的语音检测方法研究[D];电子科技大学;2015年
4 朱俊梅;基于性别预分类的年龄自动估计研究[D];江苏师范大学;2014年
5 周慧;基于PAD三维情绪模型的情感语音转换与识别[D];西北师范大学;2009年
6 李尘一;基于联合得分的语音置信度评估系统的研究与设计[D];内蒙古大学;2006年
7 朱君波;PCA在语音检测中的应用研究[D];浙江工业大学;2004年
8 陈宇超;广播语音的分割与分类研究[D];北京邮电大学;2009年
9 何明哲;语音片段检索算法的研究与应用[D];华南理工大学;2012年
10 邸燕君;基于感知哈希的语音内容认证方法研究[D];兰州理工大学;2013年
,本文编号:1383011
本文链接:https://www.wllwen.com/kejilunwen/wltx/1383011.html