特定目标说话人的语音转换系统设计

发布时间：2017-06-27 18:14

本文关键词：特定目标说话人的语音转换系统设计，，由笔耕文化传播整理发布。

【摘要】：语音转换是保存某一个说话人(源说话人)的内容不变,同时把说话特征向指定的一个说话人(目标说话人)进行转换。而对于语音的转换在许多方面已经有相应的应用,因而对语音的转换效果的要求也是越来越高。在语音转换中效果较好的方法有高斯混合模型(Gaussian Mixture Model,GMM)。虽然该方法比其它方法效果更好,但是该方法的效果还达不到另人满意的程度。因此,对现有的语音转换方法的效果进行改进显得尤为重要。本文主要任务是改善转换语音的质量与目标倾向性,在讨论和研究该基本算法的基础上,对语音转换中的训练部分与转换部分进行了相应的改进。具体的工作与创新如下:1.本文对发声的声道模型、各种语音转换技术、GMM、基频转换、特征提取和评价方法等方面进行了研究。在此基础上实现了基于GMM的语音转换系统。同时,在该语音转换上提出了对时间对齐部分的两点改进。这两点改进是语音首尾有声端点检测与改进的动态时间规划(Improved Dynamic Time Warping,IDTW)。最终实验结果表明,该基于GMM的语音转换系统可以把源语音的特征向目标语音的特征进行转换。2.传统方法的转换部分都是逐帧进行转换的,这种方法很容易导致相邻帧之间的信息缺失。针对信息缺失的问题,文中加入相邻特征(Adjacent Feature,AF)的改进。最终增加了相邻帧之间的关联性并提高了转换语音的自然度。3.语音是时变且非平稳的,传统的语音转换的准确性较差。针对特征参数转换准确性问题,本文在对所有数据先使用K-means进行聚类后再对每个分类里的数据分别进行训练与转换。该算法的改进使特征的转换更有针对性并得到了倾向性更好的转换语音。4.为了使转换语音的自然度与目标倾向性同时得到提升,文章在原语音转换方法上同时使用相邻特征与聚类进行改进。这种结合的方法同时继承了两种改进方法的优点并最终使转换语音的自然度与目标倾向性同时得到了提升。
【关键词】：语音转换 GMM AF K-means
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TN912.3
【目录】：

摘要5-6
abstract6-11
第一章绪论11-16
1.1 语音转换的基本概念11-12
1.2 语音转换的发展现状12-13
1.3 语音转换的研究意义13-14
1.4 研究内容及结构安排14-16
第二章语音转换的基本原理16-26
2.1 语音的基础知识16-17
2.1.1 发声原理16-17
2.1.2 语音信号模型17
2.1.3 语音信号中说话人的特征17
2.2 语音转换系统基础知识17-20
2.2.1 语音库17-18
2.2.2 语音特征参数18
2.2.3 转换函数18
2.2.4 时间对齐18-20
2.3 特征参数转换20-24
2.3.1 声道谱参数转换20-23
2.3.2 基频转换的方法23-24
2.4 语音转换的评价方法24-25
2.4.1 客观评价方法24-25
2.4.2 主观评价方法25
2.5 本章小结25-26
第三章基于GMM的语音转换26-43
3.1 特征参数提取26-30
3.2 基于GMM的语音转换原理30-32
3.2.1 GMM原理30
3.2.2 语音训练30-31
3.2.3 语音转换31-32
3.3 系统框图32-33
3.4 时间对齐的改进33-38
3.4.1 语音首尾端点检测34-35
3.4.2 改进DTW35-38
3.5 实验与结果分析38-41
3.5.1 主观评价38-39
3.5.2 客观评价39-41
3.6 本章小结41-43
第四章使用相邻特征的GMM语音转换方法43-54
4.1 使用相邻特征的基本思想43
4.2 系统框图43-44
4.3 算法改进44-48
4.3.1 加入相邻特征44-45
4.3.2 训练部分的改进45-48
4.4 算法描述48-49
4.5 实验与结果分析49-53
4.5.1 主观评价49-51
4.5.2 客观评价51-53
4.6 本章小结53-54
第五章基于聚类的GMM语音转换方法54-65
5.1 K-means原理54-55
5.2 引入K-means的基本思想55
5.3 系统框图55-56
5.4 算法改进56-57
5.5 算法描述57-58
5.6 实验与仿真58-60
5.6.1 主观评价58-60
5.6.2 客观评价60
5.7 GMM+K-means+AF语音转换方法60-64
5.7.1 基本思想60-61
5.7.2 系统框图61-62
5.7.3 算法描述62-63
5.7.4 实验结果与分析63-64
5.8 本章小结64-65
第六章总结与展望65-67
6.1 总结65
6.2 展望65-67
致谢67-68
参考文献68-73

【相似文献】

中国期刊全文数据库前10条

1 丁辉;唐振民;钱博;李燕萍;;易扩展小样本环境说话人辨认系统的研究[J];系统仿真学报;2008年10期

2 刘明辉;黄中伟;熊继平;;用于说话人辨识的评分规整[J];计算机工程与应用;2010年12期

3 陈雪芳;杨继臣;;一种三层判决的说话人索引算法[J];计算机工程;2012年02期

4 杨继臣;何俊;李艳雄;;一种基于性别的说话人索引算法[J];计算机工程与科学;2012年06期

5 何致远,胡起秀,徐光yP;两级决策的开集说话人辨认方法[J];清华大学学报(自然科学版);2003年04期

6 殷启新,韩春光,杨鉴;基于掌上电脑录音的说话人辨认[J];云南民族学院学报(自然科学版);2003年04期

7 吕声,尹俊勋;同语种说话人转换的实现[J];移动通信;2004年S3期

8 董明,刘加,刘润生;快速口音自适应的动态说话人选择性训练[J];清华大学学报(自然科学版);2005年07期

9 曹敏;王浩川;;说话人自动识别技术研究[J];中州大学学报;2007年02期

10 王坚;;基于支撑向量选择的说话人自适应[J];中国新通信;2007年11期

中国重要会议论文全文数据库前10条

1 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会（CCSP-99）论文集[C];1999年

2 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年

3 马勇;鲍长春;夏丙寅;;基于辨别性深度信念网络的说话人分割[A];第十二届全国人机语音通讯学术会议（NCMMSC'2013）论文集[C];2013年

4 白俊梅;张树武;徐波;;广播电视中的目标说话人跟踪技术[A];第八届全国人机语音通讯学术会议论文集[C];2005年

5 索宏彬;刘晓星;;基于高斯混合模型的说话人跟踪系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年

6 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年

7 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认快速算法[A];第十一届全国人机语音通讯学术会议论文集（一）[C];2011年

8 李经伟;;语体转换与角色定位[A];全国语言与符号学研究会第五届研讨会论文摘要集[C];2002年

9 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集（二）[C];2011年

10 何磊;方棣棠;吴文虎;;说话人聚类与模型自适应结合的说话人自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

中国重要报纸全文数据库前3条

1 ;做一名积极的倾听者[N];中国纺织报;2003年

2 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年

3 黄惠慧（南京师范大学附属扬子中学）;高考听力要求及对策[N];中国教育资讯报;2002年

中国博士学位论文全文数据库前10条

1 李洪儒;语句中的说话人形象[D];黑龙江大学;2003年

2 李威;多人会话语音中的说话人角色分析[D];华南理工大学;2015年

3 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年

4 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年

5 吕声;说话人转换方法的研究[D];华南理工大学;2004年

6 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年

7 玄成君;基于语音频率特性抑制音素影响的说话人特征提取[D];天津大学;2014年

8 李燕萍;说话人辨认中的特征参数提取和鲁棒性技术研究[D];南京理工大学;2009年

9 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年

10 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年

中国硕士学位论文全文数据库前10条

1 杨浩;基于广义音素的文本无关说话人认证的研究[D];北京邮电大学;2008年

2 史梦洁;构式“没有比X更Y的（了）”研究[D];上海师范大学;2015年

3 魏君;“说你什么好”的多角度研究[D];河北大学;2015年

4 解冬悦;互动韵律：英语多人冲突性话语中说话人的首音模式研究[D];大连外国语大学;2015年

5 朱韦巍;扬州街上话语气词研究[D];南京林业大学;2015年

6 蒋博;特定目标说话人的语音转换系统设计[D];电子科技大学;2015年

7 陆亮;多信道条件下的说话人认证[D];北京邮电大学;2010年

8 凌锦雯;基于多特征的说话人分割与聚类的研究[D];中国科学技术大学;2011年

9 张志华;说话人自适应技术研究及其在电话信道下的关键词检出系统应用[D];中国人民解放军信息工程大学;2005年

10 杨e

本文编号：490770

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/wltx/490770.html

上一篇：KW01的无线LED显示屏控制系统的设计
下一篇：基于网格的ODN规划及建设应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|