基于稀疏表示和字典学习的语音增强算法研究

发布时间:2017-04-13 21:32

  本文关键词:基于稀疏表示和字典学习的语音增强算法研究,由笔耕文化传播整理发布。


【摘要】:语音是人们进行语言交流的重要信息载体,但是在现实环境里,语音信号往往会被各种类型的干扰和噪声所污染。被污染的语音不仅会在主观上使人产生听觉厌恶和疲劳,而且还会严重影响语音信号的可懂度。语音增强的目的就是抑制和消除被污染语音中的干扰和噪声,从而提高语音的质量和可懂度。根据污染源类型的不同,可以将语音增强分为语音分离和语音降噪问题,其中前者的污染源是干扰语音,而后者的污染源是背景噪声。传统的语音分离和语音降噪算法在一定条件下能取得比较好的性能,但是也存在一定的局限性。例如,源信号个数比混合信号多的欠定语音分离问题一直是一个难题;在语音降噪问题中,传统方法对非平稳噪声的抑制能力往往有限。本文结合稀疏表示和字典学习理论,针对上述两个难题开展研究,提出了若干算法用于语音分离和降噪,主要的工作和创新点包括: 首先,针对欠定语音分离问题,提出了基于语音双层稀疏模型的欠定语音分离算法。该算法包含两步,在第一步,我们首先对混合信号每个时频点邻域平均得到协方差矩阵,然后对该矩阵进行奇异值分解,筛选出能够较好满足窗联合正交假设的时频点进行聚类,得到较为精确的混合矩阵估计。在第二步,基于语音信号能量都集中在低频的特性,提出了双层稀疏模型,把语音信号分解成低频和高频两层。将基于此模型训练出的双层字典用于语音分离,能够降低不同源信号在字典上投影支撑集的重合度,以提高分离性能。在仿真实验,我们将所提的混合矩阵估计算法和基于双层稀疏模型的语音分离算法与传统方法进行了比较,以验证所提算法的有效性。 其次,针对单通道语音分离问题,提出了基于区分性字典学习和基于分层字典学习的单通道语音分离算法。传统方法分别独立地学习每个源对应的子字典,而没有同时利用不同子字典之间的相互约束关系,从而将源信号在复合字典上进行稀疏表示的时候,其部分成分会投影在非对应子字典上,即混淆投影存在,此时字典区分性不够,分离性能不佳。针对此问题,我们提出了区分性字典学习方法,即联合考虑不同子字典之间的关系,使得每个源信号能够在复合字典中的对应子字典上进行稀疏表示,而抑制其在非对应子字典上的表示。进一步,考虑到单层区分性字典学习方法在单通道语音分离中还是留有一定的混淆投影,我们又提出了分层字典学习方法,在多个层次上对字典进行约束,减少混淆投影,增加字典的区分性。为了验证所提算法的优越性,我们给出了仿真实验,对比所提的区分性字典学习及分层字典学习和传统方法的单通道语音分离性能。 最后,针对语音降噪问题,提出了语音和噪声联合字典学习方法和信号-特征字典学习方法。传统方法独立的学习一个语音字典和一个噪声字典,再将语音和噪声的混合信号在复合字典上进行稀疏表示来达到降噪的目的。但是这样做会导致较为严重的源混淆,即部分语音成分会被噪声字典解释,而部分噪声成分会被语音字典解释。为了增加语音字典和噪声字典的区分性和差异性,我们利用带噪信号和干净信号的训练样本,约束训练样本在对应字典上稀疏表示的近似误差和字典之间的相干性,联合训练语音字典和噪声字典,从而使得它们在增强阶段能够尽量减少语音和噪声的混淆。另外,为了利用语音和噪声信号每个时频点及其邻域的相关性,提出了一种基于邻域权重信息的特征提取方法,并且通过约束信号和特征在对应的信号字典和特征字典上具有相同的稀疏表示系数,来联合学习信号字典和特征字典,然后在增强阶段,直接利用信号字典估计出一路语音信号,利用特征字典生成的时频掩码可以估计出另一路语音信号,将这两路语音信号进行加权,从而得到最终增强的语音。仿真实验对比了所提的联合字典学习和信号-特征字典学习相比于传统方法对非平稳噪声的抑制能力。
【关键词】:语音增强 语音分离 语音降噪 稀疏表示 字典学习 双层稀疏模型 时频掩码 区分性字典学习 分层字典学习 联合字典学习 信号-特征字典学习
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TN912.3
【目录】:
  • 摘要5-7
  • Abstract7-10
  • 常用数学符号10-11
  • 目录11-14
  • 第一章 绪论14-22
  • 1.1 研究背景及意义14-16
  • 1.2 国内外发展现状16-19
  • 1.3 论文主要研究内容19-20
  • 1.4 论文章节安排20-22
  • 第二章 稀疏表示和字典学习22-32
  • 2.1 稀疏22-23
  • 2.2 稀疏表示23-26
  • 2.2.1 OMP25-26
  • 2.2.2 BP26
  • 2.2.3 LARC26
  • 2.3 字典学习26-30
  • 2.3.1 K-SVD27-28
  • 2.3.2 近似K-SVD28-29
  • 2.3.3 贪婪自适应字典29-30
  • 2.4 常用的语音信号变换30-32
  • 第三章 基于双层稀疏模型的欠定语音分离算法研究32-54
  • 3.1 引言32-33
  • 3.2 基于时频掩码的语音分离算法33-37
  • 3.2.1 DUET33-35
  • 3.2.2 基于语音谐波特性的DUET改进算法35-36
  • 3.2.3 允许信号重叠的DUET改进算法36-37
  • 3.3 基于语音稀疏表示的语音分离方法37-40
  • 3.4 基于SVD的混合矩阵估计算法40-41
  • 3.5 基于双层稀疏模型的语音分离算法41-45
  • 3.6 对比实验45-52
  • 3.6.1 实验准备45-48
  • 3.6.2 混合矩阵估计对比试验48-50
  • 3.6.3 语音分离对比实验50-52
  • 3.7 本章小结52-54
  • 第四章 基于区分性字典学习的单通道语音分离算法研究54-80
  • 4.1 引言54
  • 4.2 计算听觉场景分析54-56
  • 4.3 基于模型的方法56-60
  • 4.3.1 基于模型的方法综述56
  • 4.3.2 基于稀疏非负矩阵分解的单通道语音分离算法56-59
  • 4.3.3 基于稀疏复数矩阵分解的单通道语音分离算法59-60
  • 4.4 区分性字典学习60-68
  • 4.4.1 传统方法的缺点60-62
  • 4.4.2 区分性字典学习方法62-66
  • 4.4.3 基于区分性字典学习的单通道语音分离算法66-68
  • 4.5 对比实验68-76
  • 4.5.1 实验准备68-69
  • 4.5.2 收敛性、有效性验证和参数选取讨论69-72
  • 4.5.3 分离性能对比72-76
  • 4.6 分层字典学习76-78
  • 4.6.1 单层学习与多层学习76
  • 4.6.2 分层字典学习76-78
  • 4.6.3 实验仿真78
  • 4.7 本章小结78-80
  • 第五章 基于联合字典学习和信号-特征字典学习的语音降噪算法研究80-98
  • 5.1 引言80
  • 5.2 传统的语音降噪算法80-84
  • 5.2.1 谱减法80-82
  • 5.2.2 基于统计模型的方法82-83
  • 5.2.3 子空间方法83-84
  • 5.3 生成性字典学习84-86
  • 5.4 基于联合字典学习的语音降噪方法86-92
  • 5.4.1 联合字典学习86-89
  • 5.4.2 仿真实验89-92
  • 5.5 基于特征和信号字典学习的语音降噪算法92-97
  • 5.5.1 特征提取92-93
  • 5.5.2 信号-特征字典学习和语音降噪算法93-96
  • 5.5.3 仿真实验96-97
  • 5.6 本章小结97-98
  • 第六章 总结和展望98-102
  • 6.1 全文内容总结98-99
  • 6.2 研究展望99-102
  • 参考文献102-110
  • 致谢110-112
  • 在读期间发表的学术论文与取得的其他研究成果11

【参考文献】

中国期刊全文数据库 前3条

1 石光明;刘丹华;高大化;刘哲;林杰;王良君;;压缩感知理论及其研究进展[J];电子学报;2009年05期

2 徐义芳,张金杰,姚开盛,曹志刚,王勇前;语音增强用于抗噪声语音识别[J];清华大学学报(自然科学版);2001年01期

3 马峰;张宁;戴礼荣;;基于语音信号稀疏性的FDICA初始化和后处理方法[J];数据采集与处理;2012年02期


  本文关键词:基于稀疏表示和字典学习的语音增强算法研究,,由笔耕文化传播整理发布。



本文编号:304486

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/304486.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6365b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com