当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于模板匹配的语音样例快速检索技术研究

发布时间:2018-09-03 11:18
【摘要】:语音样例检索是根据用户输入的查询样例(即波形片段),在海量的语音资源中搜索并返回与之相关联的语音片段的过程。它在信息安全、语音搜索引擎以及语音资源的分类管理等领域具有重要的应用价值。基于模板匹配的语音样例检索是当前语音样例检索的主流技术之一。然而,直接运用该方法进行语音样例的检索存在时间消耗量大以及不能充分考虑声学条件变异的缺点。针对上述缺点,本文主要在减少检索时间消耗量以及相关区域重排序等方面开展研究,,以达到加快检索速度、提高检索精度的目的。本文的主要工作集中在以下三个方面: 针对直接运用动态时间规整进行语音样例检索在相关区域搜索时时间消耗量大的问题,提出融合分段累积近似下界估计的动态时间规整算法,此算法通过大规模减少相关区域搜索时的动态匹配次数来达到提高检索速度的目的。该方法首先计算查询样例和测试语句中每个匹配区域之间动态规整得分的分段累积近似下界估计;然后运用K最近邻搜索算法和动态时间规整算法搜索与查询样例相关的区域。实验结果表明:该方法的检索速度是直接运用动态时间规整进行检索的5.9倍,而对其检索精度毫无影响。 直接运用动态时间规整进行语音样例检索存在大量的冗余计算和冗余匹配。针对此问题,提出了一种基于分段动态时间规整的语音样例检索方法,该方法将测试语句按照一定规则划分为一系列匹配区域;然后运用动态时间规整进行语音样例的检索。为进一步提高检索效率,将分段动态时间规整算法和分段累积近似下界估计相结合。同时为了增加对声学条件变异的考虑,运用虚拟相关反馈技术修正检索结果,提出基于虚拟相似度的相关区域重排序方法。实验结果表明:该方法的检索速度是直接运用动态时间规整进行检索的14.6倍,检索精度相对于后者也提高了5.21%。 针对融合下界估计的动态时间规整算法和融合下界估计的分段动态规整算法存在的局限,提出融合边界信息的动态时间规整算法。该方法首先运用层次凝聚聚类算法将查询样例和测试语句的音素后验概率特征序列分段(即边界检测),计算每个分段的均值向量,并将这些均值向量组成新索引和新查询;再运用动态时间规整算法进行语音样例的检索;最后采用虚拟相关反馈修正检索结果。实验结果表明:该方法的检索速度是直接运用动态时间规整进行检索的15.4倍,检索精度在后者的基础上也提高了0.73%。
[Abstract]:Speech sample retrieval is a process of searching and returning the associated speech fragments in a large amount of speech resources according to the query samples (i.e. waveform fragments) input by the user. It has important application value in the fields of information security, voice search engine and classification management of speech resources. Speech sample retrieval based on template matching is one of the main techniques in speech sample retrieval. However, the direct use of this method for the retrieval of speech samples has the disadvantages of high time consumption and insufficient consideration of acoustic condition variation. In order to speed up the retrieval speed and improve the retrieval accuracy, this paper mainly focuses on reducing the retrieval time consumption and reordering the relevant areas in order to speed up the retrieval speed and improve the retrieval accuracy. The main work of this paper is focused on the following three aspects: aiming at the problem of large amount of time consumption in the search of related areas by direct use of dynamic time regularization for speech sample retrieval, A dynamic time warping algorithm based on piecewise cumulative approximate lower bound estimation is proposed. This algorithm can improve the retrieval speed by reducing the number of dynamic matching in search of relevant regions on a large scale. This method first calculates the piecewise cumulative approximate lower bound estimation of the dynamic warping scores between the query samples and each matching region in the test statement, and then uses the K-nearest neighbor search algorithm and the dynamic time warping algorithm to search the regions related to the query samples. The experimental results show that the retrieval speed of this method is 5.9 times faster than that of the direct use of dynamic time regulation, but it has no effect on the retrieval accuracy. There are a lot of redundant computation and redundant matching in speech sample retrieval using dynamic time warping. To solve this problem, a speech sample retrieval method based on piecewise dynamic temporal regularity is proposed, which divides test statements into a series of matching regions according to certain rules, and then uses dynamic time warping to retrieve speech samples. In order to further improve the retrieval efficiency, the piecewise dynamic time warping algorithm is combined with the piecewise cumulative approximate lower bound estimation. At the same time, in order to increase the consideration of acoustic condition variation, virtual correlation feedback technique is used to modify the retrieval results, and a virtual similarity based relative region reordering method is proposed. The experimental results show that the retrieval speed of this method is 14.6 times faster than that of the direct use of dynamic time warping, and the retrieval accuracy is 5.21 times higher than that of the latter. In view of the limitations of the dynamic time warping algorithm for fusion lower bound estimation and the segmented dynamic warping algorithm for fusion lower bound estimation, a dynamic time warping algorithm based on fusion boundary information is proposed. The method first uses hierarchical aggregation clustering algorithm to segment the phoneme posteriori probability feature series of query samples and test sentences (i.e. boundary detection), calculates the mean vector of each segment, and sets these mean vectors into new indexes and new queries. Then the dynamic time warping algorithm is used to retrieve the speech samples, and the virtual correlation feedback is used to correct the retrieval results. The experimental results show that the retrieval speed of this method is 15.4 times faster than that of the direct use of dynamic time warping, and the retrieval accuracy is improved by 0.73 on the basis of the latter.
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TN912.3

【共引文献】

相关期刊论文 前10条

1 牛滨;孔令志;罗森林;潘丽敏;郭亮;;基于MFCC和GMM的个性音乐推荐模型[J];北京理工大学学报;2009年04期

2 刘刚;叶大田;;针对汉语声母发音的辅助教师系统的研究[J];北京生物医学工程;2008年02期

3 张志勇;宋阳;;基于嵌入式下的语音机器人的设计与实现[J];长春师范学院学报(人文社会科学版);2008年10期

4 马志欣;王宏;李鑫;;语音识别技术综述[J];昌吉学院学报;2006年03期

5 杨占军;杨英杰;王强;;基于DSP的语音识别系统的设计与实现[J];东北电力大学学报;2006年02期

6 高翔;姬光荣;姬婷婷;王群;;基于探测过程建模的探地雷达多目标识别[J];电波科学学报;2011年03期

7 熊心美;陆勇;李广波;;基于高速SOC的FFT频谱分析仪的设计[J];电测与仪表;2009年01期

8 白顺先;马瑞士;;语音端点检测中判决机制的研究[J];大连民族学院学报;2010年03期

9 李炳男;张雪英;王峰;;基于RBF神经网络的钢琴单音识别研究[J];电脑开发与应用;2009年04期

10 车士伟;吾守尔·斯拉木;;浅谈连续语音识别中的关键技术[J];电脑与信息技术;2010年02期

相关会议论文 前10条

1 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年

2 马治飞;徐望;王炳锡;王兴斌;;一种基于概率模型和倒谱差分的特征补偿算法[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

3 王兴斌;徐望;王炳锡;马治飞;;噪声环境下语音能量的MMSE估计及其在语音识别中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

4 徐小峰;胡央芳;刘守快;郑翔;俞一彪;王宇岭;王庆才;戴云;李道明;;基于VQ算法的病症脉象识别[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年

5 展领;景新幸;;矢量量化和VQ-UBM在说话人确认中的应用[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年

6 汉小欢;景新幸;;一种级联的特征参数提取方法[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年

7 茹婷婷;谢湘;;耳语音数据库的设计与采集[A];第九届全国人机语音通讯学术会议论文集[C];2007年

8 熊军军;马瑞堂;李成荣;;儿童语音识别的研究现状[A];第九届全国人机语音通讯学术会议论文集[C];2007年

9 沈宏余;李英;;基于TMS320VC5416的语音识别系统的设计与实现[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年

10 李志忠;滕光辉;;基于发声信息的动物福利评价研究现状[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年

相关博士学位论文 前10条

1 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年

2 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年

3 尉洪;汉语基元音素独立分量谱分析对比及语音合成研究[D];云南大学;2011年

4 高翔;浅埋地层探地雷达信号处理与目标识别研究[D];中国海洋大学;2011年

5 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年

6 吴强;基于听觉感知与张量模型的鲁棒语音特征提取方法研究[D];上海交通大学;2010年

7 曹闻;时空数据模型及其应用研究[D];解放军信息工程大学;2011年

8 丁琦;数字音频篡改检测与隐写分析技术研究[D];解放军信息工程大学;2011年

9 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年

10 龙潜;噪声环境下的语音识别技术研究[D];中国科学技术大学;2007年

相关硕士学位论文 前10条

1 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年

2 杨青;手势识别技术的研究[D];大连理工大学;2010年

3 时筱惠;大连方言语音对英语语音习得的影响[D];辽宁师范大学;2010年

4 张宇;基于倒谱特征的说话人识别方法研究[D];大连海事大学;2010年

5 刘亚玉;限定性文本的语料库自动构建[D];中国海洋大学;2010年

6 郭秋雨;小词汇量非特定人的孤立词语音识别系统研究[D];中国海洋大学;2010年

7 丁宁;小麦碰撞音频信号预处理方法研究[D];河南工业大学;2010年

8 吴荣娣;基于特征分类直方图均衡的鲁棒性语音识别研究[D];苏州大学;2010年

9 银兵;基于μ’nSP~(TM)处理器的嵌入式语音控制技术研究[D];河南理工大学;2010年

10 童佳宁;基于HMM和PNN的混合语音识别模型研究[D];河北工程大学;2010年



本文编号:2219826

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2219826.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c4ecf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com