当前位置:主页 > 论文百科 > 研究生论文 >

语音信号稀疏表示方法研究

发布时间:2016-08-06 07:06

第一章  绪论 

1.1  引言 
早期的语音与音频系统是针对模拟声信号的,它实现起来容易,但是存在易受噪声干扰的缺点。随着信息技术的发展,数字信号处理的方法在越来越多领域得到应用。数字信号易于远距离传输和存储,抗干扰能力强,无累积失真,数字化存储的信息还可以被高品质的还原,这一系列的优点促使音频技术逐步走向数字化的方向发展。 事实上,即使经过了数字化处理,语音信号的传输仍然需要付出很多的代价。语音信号携带的信息量巨大,一段语音不仅表达出了文字内容的意思,还携带了音高、音强、音长、说话人的情绪和语气等特征信息,与文本信息相比,用语音表达相同的一段内容,信息量要比文本信息大十倍以上。尤其是近年,语音通信多与其他多媒体通信方式相结合,例如电视电话会议、微信语音聊天等。随着这些应用的流行,人们不仅对语音信息量的需求在逐渐变大,对语音质量的要求也迈上了新的台阶。因此,在尽量保证语音通信可靠性的情况下,如何高效地对语音信号进行压缩编码,降低数码率、减少占用带宽,显得十分重要。 近年来,对语音信号处理的研究和探索集中在以下几个主要的方面。语音编码、信道编码、语音增强、语音识别、语音情感识别、说话人识别、以及语音压缩感知等。无论是哪个课题,当前的研究方法都是去除语音信号的冗余信息,降维,提取主要特征。许多自然界的信号,如图像和语音,大多是稀疏或近似稀疏的。稀疏性是信号固有的特性,可以作为先验知识。如果把语音信号处理比作一座大厦,那么语音信号的稀疏表示就是大厦的基石。实现上述语音领域的研究基础就是语音信号可以被稀疏表示。 近年来信号处理领域的一个热点研究是压缩感知[1],压缩感知理论指出,如果信号具有稀疏性,就可以投影至某个基矩阵,得到比奈奎斯特采样定理更少的采样点,并且可以利用少量的样点完整的恢复信号。压缩感知中最重要的就是感知矩阵,而感知矩阵与稀疏基有密切的关系。语音信号的稀疏表示是语音压缩感知的重要组成环节。 
........

1.2  语音稀疏表示理论研究现状 
信号处理中最重要的事情之一是有效表示信号。首先,数据存储和传输的资源是有限的,这就需要高效的信号表示以节省存储空间。其次,信号不可避免地受到噪声污染,需要不受噪声影响的表征。第三,对于如检测和分类等对信号的分析,信号的稀疏表示可以捕获更有用的信号特征。特别是语音信号,语音信号在时频上具有近似稀疏性。因此,用语音的稀疏表示可以从本质上降低语音信号处理的成本。 早期的线性表示都是基于线性分辨率变换,例如熟悉的快速傅里叶变换(FFT)、离散余弦变换(DCT)和主成分分析(PCA)等。这些方法的一个重要特点是任何一个信号的表示都会用到所有的元素。随后,类似于短时傅里叶变换(STFT)、Gabor 变换和小波分析等非线性分辨率变换的方法出现,这些方法通过利用基函数中不同的元素组合获得更好的近似表示。近几年,一种新的信号表示方法被提出了并取得了极大的成功——稀疏编码[5],这种技术采用一种过完备字典(也称冗余字典)来替代各种变换,,字典中包含大量的元素信号,这些元素信号被称作原子。每一个信号由部分原子的线性组合来近似表示。每一个信号可以看成多个原子的线性组合,并允许少量的原子存在非零系数。需要注意的是,表示信号所需的原子个数远小于过完备字典中含有的原子个数。 
.........

第二章  语音稀疏表示理论 

2.1  稀疏表示理论基础 

信号处理过程中,为了便于分析,将信号进行稀疏化处理是一种有效的信号处理方式。稀疏化处理方式可以通过某一个变换域上的一组基,将信号进行投影,在投影中有效值的数目尽可能少的条件下,投影结果还能完全表现信号的本质特征。 狭义的线性信号表示是将信号用一组基的线性组合来表示。例如,任意连续信号都有傅里叶变换,也就是可以用无数个正弦函数叠加而成。

......

2.2  稀疏表示理论的关键技术 
基于冗余字典的信号稀疏表示主要包含两个热点研究内容:一是构造过完备字典;二是稀疏分解算法,稀疏分解算法目的是在给定的字典 D 中寻找出T 个适合的原子的线性组合,也就是寻找稀疏系数。匹配追踪算法[6]是最先被提出的一种稀疏分解算法,属于贪婪算法的一种。MP 算法的主要思想是每一步迭代都选择最匹配的原子,多次迭代后可实现对信号的逼近。相比上面提到的 BP 算法,MP 算法并不追求全局最优解,只是局部最优解,并且收敛速度很慢,因此,MP 算法的稀疏分解质量也相对较低,只能得到信息的某个用少量原子表示的逼近值。 (3)正交匹配追踪算法(Orthogonal Matching Pursuit, OMP) 正交匹配追踪算法也属于贪婪算法的一种,它与 MP 算法十分近似。唯一不同的是OMP 算法会对迭代中选出的原子进行 Gram-Schmidt 正交。MP 算法进行稀疏分解时候迭代次数很多,收敛的很慢。这是由于每次迭代的残余项mfR 仅与当前选出的原子正交,而不是与前面的每个原子正交。如图 2-2 所示。
.......

第三章  基于 K-SVD 的过完备字典构造方法研究 ......... 15 
3.1  字典构造原则... 15 
3.2 K-Means 算法 .... 15 
3.3 MOD 算法 ......... 18 
3.4 K-SVD 算法 ...... 19 
3.5  本章小结 ........... 22 
第四章  基于新型 BDS 模型的语音信号字典构造方法 ............ 23 
4.1  引言 ........ 23 
4.2 BDS 模型原理 ... 24 
4.3  基于 BDS 模型的字典构造实现..... 28 
4.4  实验与分析 ....... 30 
4.5  本章小结 ........... 35 
第五章  基于非线性核字典的语音信号稀疏表示方法 ... 37 
5.1  引言 ........ 37 
5.1.1  非线性稀疏表示 .......... 37 
5.1.2  语音信号的非线性特点 ........ 39 
5.2  非线性核字典算法原理 ........ 41 
5.3  非线性核字典的实现 ............ 47 
5.4  实验与分析....... 48 
5.5  本章小结 ........... 51 

第五章  基于非线性核字典的语音信号稀疏表示方法 

5.1  引言 

前面章节中介绍的内容都属于线性范畴。然而,线性表示不适用于实际中的一些非线性结构的数据。目前常用的稀疏算法都是利用线性模型,用这些算法解决非线性结构问题结果会很差。K-SVD 算法作为一个典型的稀疏分解算法,可用于解决分类问题。但如果所分类的两类目标是非线性的,采用 K-SVD 算法进行分类,其分类结果将出现较大偏差。如图 5-1,两类目标是以非线性规律存在的,如果使用 K-SVD 算法线性模型对这两类符号进行分类,将可能会产生如图 5-1(b)的效果。显然,这个分类结果不理想,这是由于线性模型的局限性,导致分类只能局限于线性分类。图(c)是利用非线性模型分类的结果。 在信号表示中,许多信号并不能直接用字典原子的某一线性组合精确表示,而是可以精确地表示成一部分原子的非线性组合,这样就导致在低维空间出现线性不可分。针对这一不足,文献[47]中的非线性聚类分析方法,把之前线性不可分的样本通过一种非线性映射投影到一个高维特征空间,并通过核函数在高维空间采用某种线性的分类或回归技术实现分类。这样就避免了确定非线性映射函数和运算时出现  “维数灾难”等问题。 

语音信号稀疏表示方法研究

...........

总结 

现今,语音仍是使用最广泛的交流方式。有效的表示语音信号仍是信号处理中重要的事情之一。尤其是当今通信行业面临的最大问题之一就是传输信道的带宽有限,这就需要高效的信号表示以节省传输空间。另外,还有其他对语音信号的分析和识别等,希望可以捕获语音信号中更有用的信号特征。语音信号的稀疏表示研究也随之展开了。 2006 年,Candes,Tao 和 Donoho 提出了压缩感知理论。压缩感知理论是对传统的奈奎斯特定理进行的一场革命,而它是以信号的稀疏性为前提条件,随着压缩感知研究的发展,对信号的稀疏表示的研究也越来越得到人们的重视。本文对语音信号的稀疏表示进行了深入研究。 自然界的信号大多是稀疏的,语音也不例外。在第一章中,本文验证了语音信号的稀疏性,简述了稀疏表示理论的发展历程和国内外研究现状,并详细解释了稀疏理论和语音信号处理结合研究的必要性和先进性。 在第二章中,详细介绍了稀疏表示理论。首先,详细研究了线性稀疏表示理论的数学模型及度量标准。随后,介绍了稀疏表示理论中的两个关键技术:一个是稀疏分解算法,另外一个是稀疏基的构造。稀疏分解算法中较常用的是正交匹配追踪算法,因为其收敛速度快。关于稀疏基的构造,本文分析了各种稀疏基的特点,认为使用冗余字典作为稀疏基最具有灵活性,由于其冗余性,更容易得到更稀疏的表示。最后,本章将稀疏表示与压缩感知联和起来,简单介绍了压缩感知理论和压缩感知中两个主要技术手段。说明了语音信号的重构依靠压缩感知。  
.........
参考文献(略)




本文编号:86182

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/lwfw/86182.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fd301***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com