语音唇动关联性分析方法研究及其在录音回放检测中的应用

发布时间:2018-06-06 02:29

  本文选题:音视频信号处理 + 一致性分析 ; 参考:《华南理工大学》2016年博士论文


【摘要】:语音唇动关联性分析是利用发音过程中唇动与语音之间的因果关系来判断两者的变化是否同步一致,在电影口型匹配,视频中的说话人分割等多媒体处理领域有着广泛的应用。现有录音回放攻击检测手段主要是基于语音单一模态,即使利用音视频双模态信息也只是通过融合两者的认证得分来提高系统的安全性,这样处理虽起到一定的抗攻击作用,却忽视了语音变化和唇部运动间的强相关性这一重要的活体检测信息。本文针对语音唇动关联性分析及其在录音回放攻击中的应用展开研究,主要工作和贡献如下:(1)开发了基于语音唇动一致性分析的录音回放检测平台SCUT-AV Playback Detection System,该平台可进行录音回放攻击检测,语音唇动关联性及时延分析等实验研究。探讨了音视频结合的回放检测系统可能面对的各种攻击,定义了四类语音唇动不一致数据。为构建四类不一致数据进行实验分析,对国内外的双模态数据库进行研究,选用VidTIMIT、CUAVE和中文通用库作为主库,并针对VidTIMIT库存在数据不全面的问题,自建了一个双模态数据库作为补充。同时,为深入探讨韵母语音唇动关联度的需要,从中文通用库中切取不同韵母的音视频数据建立了一个韵母单元数据库。(2)传统语音唇动分析模型忽略了发音过程中语音与唇形变化在时域上的动态联系,本文基于时空联合分析思想,提出基于时空相关度融合的语音唇动一致性检测算法。先通过唇宽、唇高与语音幅度变化之间的联系获得语音唇动的时域相关度;再由协惯量分析(CoIA)求得语音与唇部像素空间特征的相关度。并探讨语音唇动一致和不一致数据在时延上的差异,针对典型相关分析和二次互信息两种算法(MI)时延估算结果易受样本数量和参数影响等不足,提出基于Co IA的时延估算方法,其估算准确率达95.4%,较前两者分别提高了9.7%和4.9%。利用此算法对音唇一致和不一致的数据进行时延估计,统计出一致数据的合理时延分布范围,并结合两者在相关度上的差异提出一种奖惩机制对相关度得分进行修订,最后通过置信度对时空域上的得分进行融合来度量一致性。实验表明,对于四类不一致数据,与单独基于XY空间唇部特征的分析模型相比,时空融合方法的等错误率(EER)平均下降了约8.2%,而且采用新的得分修订方法后对四类不一致数据的EER也较采用前平均下降了5.4%。(3)目前,统计类与相关法类等分析方法忽略了唇动帧间时变信息,且难以反映出包含发音规律的时空结构性信息,本文利用音视频联合原子作为描述不同音节发音时音频与唇形同步变化关系的模板,提出基于音视频移不变(SI)学习字典的语音唇动一致性判决方法。分别通过时域、时空域SI稀疏表示模型描述共同时轴上的语音和唇动信号,由联合字典学习算法训练音视频字典,并对算法稀疏编码部分的平移集合矩阵维度过大的问题采用新的映射方式进行改进,然后依据学习所得字典提出新的语音唇动一致性判决准则。实验结果表明,与统计类方法中的CoIA以及MI法,相关法中的双模态线性预测法和归一化相关系数结合SVM的方法相比,对于小词汇量语料,本文方法总体EER分别下降了9.1%,17.6%,13.9%和10.5%;对于大词汇量语料,总体EER也分别下降了3.2%,12.4%,7.2%和4.1%。(4)(2)和(3)的方法均对整句话进行分析,并无对唇形变化显著或语音唇动关联性较强的信息加以区分,存在运算量大,分析结果易受静音及弱关联片段影响等不足,借鉴假唱鉴别中只以显著嘴型段为参考的思想,以唇型变化较明显的韵母为代表性发音事件,提出基于韵母发音事件音视频匹配及位置时延分析的一致性分析方法。先对字典学习数据进行韵母段筛选,并提出一种音视频结合的韵母切分方法,其切分准确率达93.5%;利用(3)中方法获得韵母字典并进行韵母事件匹配分析,同时加入对事件发生位置的时延分布分析,再由GMM模型融合这两种分析的得分进行判决。实验表明,该方法训练和分析的运算量较(3)下降了35%,总体EER较(2)和(3)下降了2.1%和4.6%。接着对韵母单元进行深入分析,采用动态口型序列特征通过凝聚层次聚类对韵母进行归类,并利用相关度分析选出关联度较强的类别共19个韵母作为“特定发音单元”,提出基于特定韵母发音单元的一致性检测方法。实验表明,采用特定韵母单元代替整句进行一致性分析是可行和有效的,其中对一至三类不一致数据的EER更分别降低了1.2%,0.9%和0.5%,运算量也显著减少。而且融合韵母位置时延分布得分后,对三、四类不一致数据的EER较融合前降低了4.9%和10.6%,总体EER降低了4.8%。
[Abstract]:In this paper , based on the analysis of the correlation between the lip width , the height of the lip and the change of the speech amplitude , this paper proposes a new method for detecting the speech lip dynamic consistency based on the combination of two modes of speech and video . ( 3 ) At present , the statistical method and correlation method have ignored the time - varying information of lip motion , and it is difficult to reflect the temporal and temporal structural information including the pronunciation rule . The method is based on the combination of phonetic and video combined atom as a template to describe the relationship between audio and lip synchronization in different syllable pronunciation . The consistency detection method based on the specific vowel phonetic unit is proposed . The experiment shows that it is feasible and effective to use the specific vowel unit instead of the whole sentence to carry out the consistency analysis .
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.41;TN912.3

【相似文献】

相关期刊论文 前10条

1 谢贵武;杨继红;肖勇;闵刚;;基于语音分段的自适应时长调整算法[J];军事通信技术;2008年02期

2 樊建中;孙晴;杨永杰;;一种智能盲文学习机设计[J];现代电子技术;2010年05期

3 温洪昌;黄应强;傅贵兴;;单片机的多段语音组合录放系统设计[J];单片机与嵌入式系统应用;2011年10期

4 张剑;袁华强;;Rhetorical-State SVM在抽取式语音摘要中的应用[J];科学技术与工程;2013年21期

5 卢坚 ,毛兵 ,孙正兴 ,张福炎;一种改进的基于说话者的语音分割算法[J];软件学报;2002年02期

6 章文义,朱杰;几种无语音检测噪音估计方法的比较研究[J];计算机工程与设计;2003年10期

7 林鑫;陈桦;王开志;王继成;;语音驱动唇形自动合成算法[J];计算机工程;2007年17期

8 蔡铁;;基于在线单类支持向量机的自适应语音活动检测[J];深圳信息职业技术学院学报;2008年02期

9 章钊;郭武;;话者识别中结合模型和能量的语音激活检测算法[J];小型微型计算机系统;2010年09期

10 朱淑琴,裘雪红;一种精确检测语音端点的方法[J];计算机仿真;2005年03期

相关会议论文 前9条

1 田野;王作英;陆大金;;基于韵律结构信息的非语音拒识[A];第六届全国人机语音通讯学术会议论文集[C];2001年

2 徐明;胡瑞敏;黄云森;;基于音素识别的语音评价方法[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年

3 王欢良;韩纪庆;李海峰;王承发;;面向嵌入式应用的小词汇量语音串识别系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

4 那斯尔江·吐尔逊;吾守尔·斯拉木;麦麦提艾力;;维吾尔语大词汇量连续语音识别研究——语音语料库的建立[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 简志华;王向文;;考虑帧间信息的语音转换算法[A];浙江省信号处理学会2012学术年会论文集[C];2012年

6 魏维;马海燕;;一种丢失语音信包重建的新算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年

7 陈凡;罗四维;;一个实用语音开发应用系统的设计与实现[A];第二届全国人机语音通讯学术会议论文集[C];1992年

8 刘红星;戴蓓劏;陆伟;;基于图像增强方法的共振峰谐波能量参数的语音和端点检测[A];第九届全国人机语音通讯学术会议论文集[C];2007年

9 林爱华;张文俊;王毅敏;;基于肌肉模型的语音驱动唇形动画[A];第十三届全国图象图形学学术会议论文集[C];2006年

相关重要报纸文章 前5条

1 atvoc;数码语音电路产品概述[N];电子资讯时报;2008年

2 记者 李山;德用双音素改进人工语音表达[N];科技日报;2012年

3 中国科学院自动化研究所模式识别国家重点实验室 于剑邋陶建华;个性化语音生成技术面面观[N];计算机世界;2007年

4 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年

5 ;与“小超人”对话[N];中国计算机报;2001年

相关博士学位论文 前10条

1 高伟勋;智能家居环境中个性化语音生成关键技术研究[D];东华大学;2015年

2 陈丽萍;说话人确认中语音段差异建模相关问题的研究[D];中国科学技术大学;2016年

3 朱铮宇;语音唇动关联性分析方法研究及其在录音回放检测中的应用[D];华南理工大学;2016年

4 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年

5 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年

6 李冬冬;基于拓展和聚类的情感鲁棒说话人识别研究[D];浙江大学;2008年

7 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年

8 古今;语音感知认证的关键技术研究[D];中国科学技术大学;2009年

9 彭波;Internet上语音的鲁棒性传输研究[D];华南理工大学;2001年

10 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年

相关硕士学位论文 前10条

1 王明明;基于GMM和码本映射相结合的语音转换方法研究[D];西安建筑科技大学;2015年

2 印雪晨;宋词朗读呼吸信号和韵律时长研究[D];西北民族大学;2015年

3 邱一良;噪声环境下的语音检测方法研究[D];电子科技大学;2015年

4 朱俊梅;基于性别预分类的年龄自动估计研究[D];江苏师范大学;2014年

5 张占松;基于DSP的语音干扰方法研究与实现[D];北京交通大学;2016年

6 李鹏;基于系统融合的语音查询项检索技术研究[D];解放军信息工程大学;2015年

7 赵蓉蓉;基于计算听觉场景分析的单通道语音盲分离技术[D];太原理工大学;2016年

8 崔瑞莲;语种识别中的语音段表示方法研究[D];中国科学技术大学;2016年

9 刘学;基于语音样例查询的关键词识别方法研究[D];中国科学技术大学;2016年

10 王振文;汉藏双语跨语言语音转换方法的研究[D];西北师范大学;2015年



本文编号:1984627

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1984627.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户38e8a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com