基于Kinect的特定说话人跟踪系统的研究与实现
本文关键词:基于Kinect的特定说话人跟踪系统的研究与实现 出处:《延边大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 说话人跟踪 声纹特征 GMM-UBM 说话人确认 Kinect 自适应波束形成算法
【摘要】:说话人跟踪在视频会议、多媒体系统、智能监控、人机交互、机器人等领域具有重要的研究意义和广泛的应用价值。声源定位技术常被用来作为说话人跟踪的基本手段,然而声源定位技术容易受到混响、噪声的影响,并且当环境中存在多个说话人时会使说话人跟踪产生偏差。Kinect由四个麦克风组成的直线型阵列能够有效抑制噪声和消除回音,本学位论文利用Kinect传感器接收和处理说话人的语音信号,采用基于波束形成算法实现说话人跟踪。多说话人的环境下,加入说话人的声纹特征,对特定说话人的身份进行仔细确认后,再实现实时跟踪。首先,针对多说话人环境,选用基于高斯混合模型-通用背景模型(Gaussian mixture model-Universal Background Model,GMM-UBM)的说话人确认方法对说话人进行身份认证。该方法先提取出模仿人耳听觉特性的声纹特征参数一—梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCC),然后将 GMM-UBM模型作为说话人确认的训练模型,测试阶段将测试语音与训练得到的说话人模型进行匹配,匹配得分与预先设置的阈值进行比较,最终给出判断结果。其次,采用自适应波束形成算法实现声源的定位,解决了 Kinect麦克风阵元较少情况下的说话人声源定位问题。最后,设计了特定说话人跟踪系统,主要包括三个功能模块:音频采集与处理模块、说话人确认模块和定位跟踪模块。利用Kinect for Windows SDK v1.8和Open CV以及tsVPR说话人确认引擎等工具包,对这三个模块进行了设计及实现。最终根据获取到的特定说话人的方位角,实现了特定说话人的定位跟踪功能。实验结果表明,本文设计和实现的特定说话人跟踪系统,采用自适应波束形成技术能够准确地定位特定说话人的方位。在理想环境和单一特定说话人情况下平均定位准确率为93.3%,方位角的均方根误差(Rootmean square error,RMSE)为6.4,在理想环境和多人情况下平均定位准确率为89.5%。另外,在环境噪声为30-50dB且伴有30ms和50ms混响的情况下,通过Kinect内部的噪声抑制机制,取得了单人跟踪83.35%的准确率、8.9的RMSE,多人环境跟踪特定说话人81.27%的准确率,均满足本文设定的性能指标,证明了本系统在噪声和混响室内环境下也表现出较强的鲁棒性。
[Abstract]:Speaker tracking has important research significance and wide application value in the fields of video conference, multimedia system, intelligent monitoring, human-machine interaction, robot and so on. Sound source localization technology is often used as a basic means of speaker tracking. However, localization technology is prone to be affected by reverberation and noise, and when there are multiple speakers in the environment, it will cause bias in speaker tracking. Kinect linear array composed of four microphones can effectively suppress noise and eliminate echo. In this thesis, Kinect sensor is used to receive and process speaker's speech signal and realize speaker tracking based on beamforming algorithm. Multi speaker environment, voiceprint speaker added, in particular the identity of the speaker carefully after confirmation, to achieve real-time tracking. First, in view of multi speaker environment, a speaker verification method based on Gauss mixture model Gaussian mixture model-Universal Background Model (GMM-UBM) is used to authenticate the speaker. This method firstly extracts the voiceprint parameters to mimic the human auditory characteristics - Mel cepstral coefficients (Mel Frequency Cepstral Coefficients, MFCC), then the GMM-UBM model is used as a training model of speaker recognition, speaker model testing phase will test the voice and the matching, the matching score and the preset threshold were compared. The final judgement results. Secondly, the adaptive beamforming algorithm is used to locate the sound source, and the problem of the speaker localization is solved in the case of the Kinect microphone array element. Finally, a specific speaker tracking system is designed, which mainly consists of three functional modules: audio acquisition and processing module, speaker recognition module and location tracking module. The three modules are designed and implemented by using Kinect for Windows SDK v1.8 and Open CV and tsVPR speaker confirmation engine toolkit. In the end, the location and tracking function of a specific speaker is realized based on the azimuth of the specific speaker. The experimental results show that the specific speaker tracking system designed and implemented in this paper adopts adaptive beamforming technology to locate the speaker's orientation accurately. Under ideal environment and single speaker, the average location accuracy is 93.3%, the Rootmean square error (RMSE) of azimuth is 6.4, and the average location accuracy is 89.5% under ideal environment and multi person condition. In addition, the environmental noise is 30-50dB with 30ms and 50ms under the condition of reverberation suppression mechanism, through the noise inside the Kinect, made a single tracking accuracy, 83.35% of the 8.9 RMSE, the accuracy rate of more than 81.27% of the speaker tracking environment, meet the set of indicators, it is proved that the system in noise the reverberation and the indoor environment also showed strong robustness.
【学位授予单位】:延边大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.34
【相似文献】
相关期刊论文 前10条
1 刘文举,孙兵,钟秋海;基于说话人分类技术的分级说话人识别研究[J];电子学报;2005年07期
2 丁辉;唐振民;钱博;李燕萍;;易扩展小样本环境说话人辨认系统的研究[J];系统仿真学报;2008年10期
3 刘明辉;黄中伟;熊继平;;用于说话人辨识的评分规整[J];计算机工程与应用;2010年12期
4 陈雪芳;杨继臣;;一种三层判决的说话人索引算法[J];计算机工程;2012年02期
5 杨继臣;何俊;李艳雄;;一种基于性别的说话人索引算法[J];计算机工程与科学;2012年06期
6 何致远,胡起秀,徐光yP;两级决策的开集说话人辨认方法[J];清华大学学报(自然科学版);2003年04期
7 殷启新,韩春光,杨鉴;基于掌上电脑录音的说话人辨认[J];云南民族学院学报(自然科学版);2003年04期
8 吕声,尹俊勋;同语种说话人转换的实现[J];移动通信;2004年S3期
9 董明,刘加,刘润生;快速口音自适应的动态说话人选择性训练[J];清华大学学报(自然科学版);2005年07期
10 曹敏;王浩川;;说话人自动识别技术研究[J];中州大学学报;2007年02期
相关会议论文 前10条
1 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
2 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年
3 马勇;鲍长春;夏丙寅;;基于辨别性深度信念网络的说话人分割[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
4 白俊梅;张树武;徐波;;广播电视中的目标说话人跟踪技术[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 索宏彬;刘晓星;;基于高斯混合模型的说话人跟踪系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
7 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认快速算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 李经伟;;语体转换与角色定位[A];全国语言与符号学研究会第五届研讨会论文摘要集[C];2002年
9 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
10 何磊;方棣棠;吴文虎;;说话人聚类与模型自适应结合的说话人自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
相关重要报纸文章 前3条
1 ;做一名积极的倾听者[N];中国纺织报;2003年
2 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年
3 黄惠慧(南京师范大学附属扬子中学);高考听力要求及对策[N];中国教育资讯报;2002年
相关博士学位论文 前10条
1 李洪儒;语句中的说话人形象[D];黑龙江大学;2003年
2 李威;多人会话语音中的说话人角色分析[D];华南理工大学;2015年
3 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
4 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年
5 吕声;说话人转换方法的研究[D];华南理工大学;2004年
6 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年
7 玄成君;基于语音频率特性抑制音素影响的说话人特征提取[D];天津大学;2014年
8 李燕萍;说话人辨认中的特征参数提取和鲁棒性技术研究[D];南京理工大学;2009年
9 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年
10 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 杨浩;基于广义音素的文本无关说话人认证的研究[D];北京邮电大学;2008年
2 史梦洁;构式“没有比X更Y的(了)”研究[D];上海师范大学;2015年
3 魏君;“说你什么好”的多角度研究[D];河北大学;2015年
4 解冬悦;互动韵律:英语多人冲突性话语中说话人的首音模式研究[D];大连外国语大学;2015年
5 朱韦巍;扬州街上话语气词研究[D];南京林业大学;2015年
6 蒋博;特定目标说话人的语音转换系统设计[D];电子科技大学;2015年
7 王雅丹;汉语反语研究[D];南昌大学;2015年
8 陈雨莺;基于EMD的说话人特征参数提取方法研究[D];湘潭大学;2015年
9 单燕燕;变音环境下鲁棒性说话人辨认关键技术研究[D];南京邮电大学;2015年
10 陈sネ,
本文编号:1338204
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1338204.html