基于深度学习的信号分离若干问题研究
发布时间:2024-12-26 23:26
在现实环境中,人们感兴趣的语音信号通常会被噪音或其他背景音所干扰,这些噪音对现实语音质量存在严重的损害,也对语音识别模型的性能存在一定考验。为了区分真实语音中的噪音和混合的目标说话人声音,语音分离技术是最常用的方法。近年来,得益于深度学习的发展,语音分离技术取得长足进步,但也仍然有许多难点,对于分离后的语音信号的恢复程度和纯净度仍需要不断提升。因此,基于以上背景,本文围绕独立成分分析、语音视频处理、生成对抗策略和梯度约束策略等相关技术方面对语音信号的分离任务展开研究。在论文的主体部分中,文章以深度学习方法为基础,主要解决的问题是对混合的语音信号进行分离,得到纯净的目标语音。针对以上问题,本论文基于独立性分析和相关性抑制的思想方法,提出了以下几点新的应用方案:(1)本论文以语音信号作为输入,提出了一种基于独立性分析方法的单通道语音分离结构,以及一种基于相关性抑制方法的单通道语音分离结构。在独立性分析方法的结构中,该结构通过分离和重采样模块获得混合信号的联合采样和边缘乘积采样,使用对抗网络的思想不断优化两种采样的相似度,从而保证分离信号之间是相互独立的;在相关性抑制方法的结构中,该结构从最小...
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
本文编号:4020784
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
图4-7视频片段示意
第四章结合视频的语音信号分离方法51根据论文介绍,AVSpeech的生成过程有两步。第一步,使用Hoover等人[39]的说话人追踪算法,在众多的视频中检测出包含人类说话动作的片段,其中,说话人的脸必须是可见的,模糊、光照不足或姿势夸张的图像帧会被弃用,但如果一个片段的图像帧缺失....
本文编号:4020784
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/4020784.html