无线电对讲语音的说话人分割聚类研究
发布时间:2017-08-18 17:28
本文关键词:无线电对讲语音的说话人分割聚类研究
【摘要】:伴随着信息爆炸和大数据时代的到来,音频获取途径和数量迅速增加,音频管理变得越来越复杂,说话人分割聚类作为音频管理的一种方式近几年在国际上逐渐成为研究热点。说话人分割聚类是说话人识别、话者跟踪、话者自适应的前期处理和必要步骤。本文针对多说话人、信道变化、背景噪声大的无线电对讲语音,主要进行说话人分割聚类研究。在分析现有无监督说话人分割算法的基础上,使用BIC、GLR和KL2准则对音频进行说话人分割,通过移动不同尺度的时间窗来快速确定存在的说话人变化点,最佳性能达到F=65.47%。说话人聚类是通过CLR距离的自底向上的层次聚类来实现的,聚类的终止条件是系统中指定的说话人个数。针对音频中包含较大的背景噪声,使用经典的谱减法和维纳滤波器对音频进行语音增强,对增强后的语音进行说话人分割聚类实验。在以上说话人分割算法性能遇到瓶颈时,通过观察发现地面控制中心和飞行员说话结束后会产生按键音。由于按键音是说话人变化的标识,由此提出信息融合的方法进行说话人分割聚类。在研究现有声学事件检测算法的基础上,使用时域分析和模型匹配的方法进行声学事件检出。通过实验得到高召回率和高准确率的事件位置后,对说话人分割结果进行修正。实验表明增加事件检测后说话人分割算法性能提升到77.18%,比之前单独使用最好的BIC方法的综合性能相对提升了17.88%,召回率和准确率分别相对提升了20.01%和15.50%。
【关键词】:信息融合 说话人分割聚类 声学事件检测
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3
【目录】:
- 摘要5-6
- Abstract6-9
- 第1章 绪论9-16
- 1.1 课题的研究背景和意义9-10
- 1.2 研究现状10-14
- 1.2.1 说话人分割聚类10-11
- 1.2.2 声学事件检测11-13
- 1.2.3 信息融合13-14
- 1.3 本文研究工作与论文组织14-16
- 第2章 说话人分割聚类16-30
- 2.1 说话人分割聚类概述16-24
- 2.1.1 语音信号的预处理17-19
- 2.1.2 特征提取19-20
- 2.1.3 语音活性检测20-22
- 2.1.4 说话人分割22-23
- 2.1.5 说话人聚类23-24
- 2.2 实验数据与性能评估24
- 2.3 不同距离度量的说话人分割算法24-28
- 2.3.1 GLR距离25-27
- 2.3.2 BIC距离27
- 2.3.3 KL2距离27-28
- 2.4 说话人聚类28-29
- 2.5 本章小结29-30
- 第3章 语音增强30-38
- 3.1 语音增强方法概述30-33
- 3.2 语音增强33-36
- 3.2.1 谱减法33-35
- 3.2.2 维纳滤波器35-36
- 3.3 语音增强后说话人分割性能36-37
- 3.4 本章小结37-38
- 第4章 声学事件检测38-44
- 4.1 声学事件检测概述38-39
- 4.2 声学事件检测实现39-43
- 4.2.1 时域分析法40-41
- 4.2.2 模型匹配法41-43
- 4.3 本章小结43-44
- 第5章 基于信息融合的说话人分割44-49
- 5.1 信息融合概述44-45
- 5.2 信息融合的说话人分割45-47
- 5.3 本章小结47-49
- 第6章 总结与展望49-51
- 6.1 主要工作总结49
- 6.2 后期展望49-51
- 参考文献51-56
- 攻读学位期间发表论文与研究成果清单56-57
- 致谢57
【参考文献】
中国期刊全文数据库 前3条
1 石自强;韩纪庆;郑铁然;;鲁棒声学事件检测综述[J];智能计算机与应用;2012年06期
2 王博;郭英;韩立峰;;基于熵函数的语音端点检测算法研究[J];信号处理;2009年03期
3 潘泉,于昕,程咏梅,张洪才;信息融合理论的基本方法与进展[J];自动化学报;2003年04期
中国硕士学位论文全文数据库 前4条
1 刘晶;高强度噪声对凹耳蛙听觉的影响[D];厦门大学;2014年
2 孔鸿运;行车环境下鲁棒的声学事件检测方法[D];哈尔滨工业大学;2013年
3 凌锦雯;基于多特征的说话人分割与聚类的研究[D];中国科学技术大学;2011年
4 梁学战;新闻视频自动切分关键技术研究[D];中国科学技术大学;2009年
,本文编号:695829
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/695829.html