当前位置:主页 > 科技论文 > 信息工程论文 >

基于LSTM与聚类分析的语音分离与跟踪算法研究

发布时间:2021-08-28 04:30
  现阶段,语音交互技术例如语音合成、自动语音识别(automatic speech recognition,ASR)等在现实生活中得到广泛的应用,但在真实环境下伴随着如背景噪声、多个说话人声及混响等相关干扰因素,降低了说话人语音的听感和可懂度,从而影响语音交互的实际效果。而语音分离与跟踪技术,即为解决从多个说话人干扰或者其他背景噪声中获得高保真、高纯净的目标说话人语音信号的问题,可应用于嘈杂环境下的会议记录、公安刑侦监听以及语音身份认证等领域,具有广阔的应用前景及研究价值。本文对语音分离的理论和相关的算法进行了研究,分别针对语音分离、声纹识别等相关算法模块进行具体描述,就以生成对抗网络改进语音的时频掩蔽、以说话人识别为基础的语音跟踪展开深入研究。其主要工作如下:首先,介绍了基于时频掩蔽的神经网络语音分离算法原理,阐述了采用LSTM对语音信号建模在抽取时序特征的优势,分析了当前监督性语音分离中仍存在不足之处。然后采用了基于生成对抗网络的语音分离方法,在语音生成阶段引入一种递归推导算法和稀疏编码改进时频掩蔽的生成,并接入判别器分类对真、假语音信号进行判定,使得生成的信号不断地逼近目标语音信号... 

【文章来源】:广东工业大学广东省

【文章页数】:84 页

【学位级别】:硕士

【部分图文】:

基于LSTM与聚类分析的语音分离与跟踪算法研究


人声与白噪声在0dB的信噪比混合的时域波形图

端点检测,说话人


第二章 语音分离与跟踪基础理论max( )vadvad( ) 20 log(| |)1020| | | |P w t hresh daolv dP w XX Xxx (2.而本文则简化了传统的端点检测的方法,直接在频域中对能量值进行检测分析[33],具体判别如式 2.8 所示,其中,横坐标单位为时间 s,纵坐标为幅值 dB ,| X |表示为语音的幅度值, P ( w) 为声压级能量,threshold 为阈值,实验中设为 40dB,只有当幅度谱振幅大于基于声压级能量阈值转化为幅度谱后的振幅vadx 才进行保留。

二值图,语谱图,说话人,二值


第二章 语音分离与跟踪基础理论元的二值分类,最近的研究已经应用这种构想,从混合信号中计算 IBM 进而实现语音信号的分离,如图 2.9 所示,图 a 为说话人语音语谱图,图 b 为经过基于频域的端点检测的 IBM 黑白图,横坐标表示时间,纵坐标在图 b 中表示频率,图 b 中有效的 FFT 采样点数为 129,若对应时间帧上为一束白色,表示端点检测出的静默段以及空语言段值为 0,黑色表示同一说话人对应的频谱活跃区,值为 1。


本文编号:3367797

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3367797.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户81c8d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com