基于深度学习和D-S理论的分布式麦克风阵列说话人跟踪算法研究

发布时间：2020-06-11 20:53

【摘要】：说话人定位跟踪在音视频会议系统、智能监控系统以及智能家居等场景中有着广泛的应用。分布式麦克风阵列相较于传统规则麦克风网络有着节省数据传输资源、增强网络容错能力、提高系统准确性和稳定性等优势。传统的说话人跟踪算法多采用卡尔曼类滤波器或粒子类滤波器作为移动说话人位置估计的工具,并假设说话人运动模型符合郎之万模型。然而实际场景中,说话人的运动状态较为复杂,很难用一个固定模型或几个模型的线性组合表示。此外,分布式跟踪算法能使得数据处理在网络中每个节点处完成,大量地减少了传输数据量,从而降低通信带宽和能量。因而,作为分布式跟踪算法的重要环节,分布式数据融合一直以来备受关注。但目前为止,应用较多的数据融合手段仍是一致性算法。该算法虽原理简单、易于实现,但其简易的过程使得数据融合精度稍差。针对以上问题,本文主要工作总结如下:(1)针对采用郎之万模型无法较为准确地描述说话人运动模型而导致的跟踪精度下降等问题,提出一种基于长短时记忆网络学习得到说话人运动状态模型,并应用分布式卡尔曼滤波器对说话人进行跟踪的方法,从而提高对说话人状态转移估计的准确度。仿真实验表明,所提方法在噪声和混响环境中仍表现出较好性能,且对麦克风网络有节点损坏时的鲁棒性较强。(2)针对一致性算法采用的加权系数比较简单,导致其收敛速度较慢、精度较低的问题,提出一种基于Dempster-Shafer数据证明理论的分布式数据融合算法。该算法通过基本概率分配函数将网络节点观测到的信号到达时延转为信度值,并利用所得到的信度值在网络中进行一定的分布式数据融合,并利用各节点最后的信度值对到达时延进行更新。仿真实验表明,所提方法能够有效地提高说话人跟踪算法的抗噪和抗混响性能,且跟踪精度有所提升。(3)针对目前D-S理论中的基本概率分配函数仍无较好的统一生成方法,提出一种基于核函数密度估计的基本概率分配函数生成法。解决了D-S理论中基本概率分配函数因应用场景的不同而无法采用统一生成方法的问题;并且可以提高传感器观测值转换为信度值的精度。
【学位授予单位】：大连理工大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TN912.3

【参考文献】