当前位置:主页 > 科技论文 > 信息工程论文 >

麦克风网络中基于分布式卡尔曼滤波的说话人跟踪方法研究

发布时间:2020-06-02 09:54
【摘要】:基于麦克风阵列的说话人定位与跟踪技术在音/视频会议系统、公共安全监控系统、语音识别、车载电话、机器人等领域得到广泛应用。近年来,随着无线传感器网络和集成电路技术的发展以及嵌入式处理器计算能力的显著提高,基于麦克风阵列网络的分布式说话人定位与跟踪技术成为语音信号处理领域的研究热点。采用分布式数据处理方式,分布式说话人定位方法不限制麦克风阵列网络的拓扑结构,其容错能力较强,可靠性和稳定性高,但它只利用当前帧的语音信号对声源进行定位,对背景噪声和房间混响鲁棒性较差。因此,需要采用分布式说话人跟踪方法来确定说话人的运动轨迹,以获得更好的声源位置估计性能。分布式说话人跟踪是典型的非线性状态估计问题。本文针对分布式麦克风网络提出了几种分布式非线性卡尔曼滤波算法,并将这些算法用于麦克风阵列网络的说话人跟踪问题,提出了几种分布式声源跟踪方法,实现对说话人运动轨迹的有效估计。本文的主要贡献如下:(1)针对分布式声源定位方法对背景噪声和房间混响鲁棒性差的问题,提出了一种基于分布式麦克风阵列网络的分布式卡尔曼滤波说话人跟踪方法。该方法考虑到噪声和混响影响使得时间延迟估计可能存在虚假值,引入了一种时延甄别策略,并在对声源进行跟踪时,从邻域搜集有效的时延估计作为观测信息,用郎之万模型描述说话人运动状态,然后用分布式卡尔曼滤波对说话人位置进行准确估计。该方法充分利用当前和过去时间帧的语音信号,能够有效解决分布式说话人定位的鲁棒性差问题,具有通信负担小、可靠性和稳定性高、使用灵活等优点。(2)针对说话人跟踪中观测模型的非线性问题,提出了一种分布式无味卡尔曼滤波方法,其可达到二阶估计精度。在此基础上,为充分描述室内环境说话人不同运动模式,引入交互式多模型算法,提出了一种基于麦克风阵列网络的分布式交互多模型无味卡尔曼滤波说话人跟踪方法。该方法对声源进行跟踪时,从邻域搜集有效的时延估计,并用不同模型描述说话人驻足、慢走、快走及加速等运动模式,然后融合不同模型的无味卡尔曼滤波结果,因此能够有效提高说话人位置的估计精度。(3)针对声源跟踪时说话人的初始状态可能未知或误差较大问题,提出了一种分布式迭代拓展卡尔曼滤波方法,并将该方法用于麦克风阵列网络的说话人跟踪问题中。此外,还引入一种迭代终止策略,使迭代过程始终向似然增加的方向进行,从而获得最大似然意义下的近似最优解。该方法在跟踪过程中,通过增加几次简单的局部迭代,即使当说话人的初始位置误差较大时,也能够快速捕捉到说话人的位置,因此具有更快的收敛速度,也能有效提高说话人位置的估计精度。(4)考虑到求容积卡尔曼滤波估计精度高,迭代拓展卡尔曼滤波收敛速度快的优点,提出了一种迭代求容积卡尔曼滤波方法,可达二阶估计精度。在此基础上,提出了一种分布式迭代求容积卡尔曼滤波方法,并将该方法用于麦克风阵列网络的说话人跟踪问题中。该方法具有二阶估计精度,且计算量较小,收敛速度快,能够有效求解说话人跟踪中观测模型的非线性问题,提高说话人跟踪性能。
【图文】:

虚声源,冲激响应,房间


#表示傅里叶变换长度,IFFT表示傅里叶逆变换。逡逑假设二维房间长宽分别为6m邋x邋5m,声源位置为(5m,3.5m),麦克风位置为逡逑混响时间为r60邋=邋300ms,利用虚声源法求得的房间冲激响应如图2.4所逡逑示。由于直达信号几乎没有能量衰减,因此房间冲激响应中幅值最大的冲激响应逡逑对应着直接到达的声音信号,其它冲激则对应着一系列反射路径声信号的冲激响应。逡逑-13邋-逡逑

说话人,运动路径,中模,声源


络中的每个节点估计说话人的运动状态,即逡逑^Pi.k邋=邋^i,k\k-l逡逑Pi,k邋=邋Pi^k\k—\逡逑对于每一个邻域节点/邋e邋A/u.,重复计算:逡逑Re邋=邋Rik邋+邋HiikP^kHjk逡逑+邋Pi.kH^R-^邋y^k邋-邋HUk邋^iykPi,k邋=邋Pi,k邋-邋Pi,kH:kR:'Hi,,kPi,k逡逑b)邋=邋b^k-i邋+邋fiAi[qi}k-i邋—邋Q^k-i^i.k-i]逡逑cf}邋=邋Sib^逡逑C)邋xiMk邋=邋Eie^k邋c!5}邋-0/,fe逡逑P%,k\k邋=邋Pi,k逡逑^i,k+l\k邋=邋^邋^i,k\k逡逑Pi,k+i\k邋=邋FPi^\kFJ邋+邋rQ^rT逡逑移矩阵f和噪声转移矩阵r由第二章郎之万模型给出。逡逑3.0-j逦逡逑
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 李稀敏;洪青阳;黄晓丹;;基于说话人的音频分割与聚类[J];心智与计算;2010年02期

2 李敬阳;李锐;王莉;王晓笛;;基于变分贝叶斯改进的说话人聚类算法[J];数据采集与处理;2017年01期

3 叶于林;杨波;莫建华;刘夏;;基于说话人辨识的自上而下听觉显著性注意模型[J];计算机系统应用;2017年07期

4 陈新仁;;说话人用意的认知加工机制:基于误解分析的证据[J];外语教学;2016年04期

5 花冬萍;;润泽有效的课堂,从引导学生学会倾听开始[J];快乐阅读;2016年24期

6 杨晓帆;;那些有故事的“说话人”[J];长江丛刊;2017年01期

7 唐一鸣;;汉日位移动词比较研究[J];唐山文学;2017年02期

8 陶艳;;简约而不简单的英语实用口语[J];初中生辅导;2016年36期

9 董文英;;临时性词汇及其语用功能探析[J];青年文学家;2017年09期

10 李洪儒;;说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J];外语学刊;2013年06期

相关会议论文 前10条

1 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年

2 马勇;鲍长春;夏丙寅;;基于辨别性深度信念网络的说话人分割[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

3 王海燕;杨鸿武;甘振业;裴东;;基于说话人自适应训练的汉藏双语语音合成[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

4 何磊;方棣棠;吴文虎;;说话人聚类与模型自适应结合的说话人自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

5 李经伟;;语体转换与角色定位[A];全国语言与符号学研究会第五届研讨会论文摘要集[C];2002年

6 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年

7 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年

8 白俊梅;张树武;徐波;;广播电视中的目标说话人跟踪技术[A];第八届全国人机语音通讯学术会议论文集[C];2005年

9 索宏彬;刘晓星;;基于高斯混合模型的说话人跟踪系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年

10 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年

相关重要报纸文章 前10条

1 ;做一名积极的倾听者[N];中国纺织报;2003年

2 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年

3 兰州大学外国语学院 樊林洲;语言进化的生态机制[N];中国社会科学报;2016年

4 华中师范大学语言与语言教育研究中心 侯钺沛;从“高大上”到“然并卵”[N];语言文字周报;2016年

5 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年

6 曹文彪;生气与高致[N];文学报;2006年

7 中国科学院自动化研究所模式识别国家重点实验室 辛乐邋陶建华;说话人头像技术:让语音可视[N];计算机世界;2007年

8 攀登;为这样的提议叫好[N];福建日报;2013年

9 全国政协委员 本报高级编辑 詹国枢;咱们都来说真话[N];人民日报海外版;2010年

10 王一民;“自许”跟“自诩”的不同[N];语言文字周报;2012年

相关博士学位论文 前10条

1 田野;麦克风网络中基于分布式卡尔曼滤波的说话人跟踪方法研究[D];大连理工大学;2018年

2 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年

3 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年

4 吕声;说话人转换方法的研究[D];华南理工大学;2004年

5 屈丹;电话信道下语言辨识技术研究[D];中国人民解放军信息工程大学;2005年

6 孙俊;基于激励源及其韵律特征的源—目标说话人声音转换研究[D];中国科学技术大学;2006年

7 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年

8 金乃高;音视频联合说话人定位与跟踪方法研究[D];大连理工大学;2008年

9 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年

10 玄成君;基于语音频率特性抑制音素影响的说话人特征提取[D];天津大学;2014年

相关硕士学位论文 前10条

1 陈秋明;关联理论在两会记者招待会口译中的应用[D];福建师范大学;2017年

2 古典;语音识别中神经网络声学模型的说话人自适应研究[D];中国科学技术大学;2018年

3 肖露;英语状语主观性语义的汉译技巧研究[D];华南理工大学;2018年

4 钟浩;噪声环境下说话人特征参数提取算法研究[D];广东工业大学;2018年

5 金亚强;基于说话人特征的低功耗人机交互唤醒机制研究[D];华南理工大学;2018年

6 吴梦捷;基于主客观分工的“X比Y要/都/还/更W”结构研究[D];上海师范大学;2018年

7 王昊楠;具备鲁棒性的说话人分割机制的设计与实施[D];北京邮电大学;2018年

8 闫小雨;短语依赖型语者识别系统的设计与实施[D];北京邮电大学;2018年

9 桑静;远程语音通信中说话人身份识别与追踪研究[D];西南交通大学;2018年

10 朱恺迪;现代汉语反预期标记“倒”和“反而”功能研究[D];华东师范大学;2017年



本文编号:2692981

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2692981.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a2a39***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com