当前位置:主页 > 科技论文 > 网络通信论文 >

基于Shazam算法的音频样例检索技术研究

发布时间:2020-03-22 02:25
【摘要】:随着大数据时代的到来,互联网上的多媒体信息量呈爆炸式增长。传统的基于文本标注的检索已经不能满足人们对多媒体检索的需求。基于多媒体文件自身内容信息的检索已经成为近年来的研究热点,其中样例检索(Query-by-Example,QbE)具有使用方便、无需标注信息等特点。以音频为例,人们可以通过提交未知的音频片段来搜索数据库,从而获取该段音频的相关信息。Shazam音频检索是样例检索的一种重要形式,它具有体积小、检索速度快等优点。本文通过对传统Shazam音频检索算法进行改进,旨在提高用户检索的效率,主要工作如下:1、搭建基线音频检索系统。将音乐检索算法Shazam引入到基于语音的样例检索中,组成基于音频的样例检索基线系统,并对系统进行性能测试。2、系统优化。在检索匹配中去掉排序靠后的候选音频,取前TopN首音频分别求最大时间偏移量,降低系统的检索时间;基于索引空间交换时间的方法,探究了索引空间中重要参数对系统性能的影响,选取了最合适的参数构造索引空间,提升了系统的性能。3、提出了一种新的特征提取算法。原Shazam算法中特征提取是选取每一帧的能量峰值点作为特征点,而新的特征提取算法选取基于矩形区域中能量阈值点作为特征点。首先是在理论上分析了改进算法的可行性,然后分别通过纯净音频和室内噪声环境录制音频,进行两种算法的对比试验,验证了改进算法能够提取更具有代表性的特征点,降低系统的检索错误率。以8s音频片段为例,改进算法比原Shazam算法错误率相对降低55.3%。4、用C,Java编程语言,采用C/S模式,实现了APP客户端和服务器模式的音频样例检索系统。对系统的设计与实现做了具体的分析,对主要的模块进行了介绍,并对系统性能进行了测试。
【图文】:

流程图,特征提取,流程,静态特征


l——1,2, ,L滤波器频率特性为:( ), ( ) ( )( ) ( )( ), c( ) ( )( ) ( )( )ik o lo l k c lc l o lh l kl k h lh l c lW k (2.6(4)对滤波器输出取对数,再进行离散余弦变换(Discrete Cosine TransformDCT),得到 MFCC:1( ) lg ( ) cos[ ( 0.5) ]LMFCClC n Y l l n L (2.7式中,n——上述得到的 MFCC 作为静态特征,进行一阶与二阶差分,可达到相应的动态特征。

滤波器,频率,音频信息,音频


图 2.3 相邻 Mel 滤波器频率的关系2.2 音频信息检索的评价音频信息检索的评价是音频信息检索领域中的一项重要工作,通过比较各种检索技术的优劣,,对改进现有检索系统的性能以及开发新的应用领域和研究方向等方面都发挥着不可替代的作用[40]。信息检索中通常采用准确率、召回率、综合性能 F 测度,还有检索时间等指标衡量。本文的音频检索系统采用下面几个性能指标进行评价:(1)准确率(Precision Rate, 也称为查准率)是指检索出相关信息的文档和实际检索出的文档的比值。本文中是指检索出正确的音频个数和实际检索出的总的音频个数的比值,其公式定义如下:检索出正确的音频个数
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3;TN912.3

【参考文献】

相关期刊论文 前5条

1 高晓芳;罗森林;吕英;罗志军;潘丽敏;;双哈希索引的高精度大规模音频样例检索[J];声学学报;2015年06期

2 孟建华;陈宁;;基于Gammachirp耳蜗能量谱特征提取的音频指纹算法[J];华东理工大学学报(自然科学版);2015年05期

3 杨鹏;谢磊;张艳宁;;低资源语言的无监督语音关键词检测技术综述[J];中国图象图形学报;2015年02期

4 丁明亮;陈隽;;自闭症患儿言语康复训练系统的研究[J];生命科学仪器;2013年Z1期

5 吴大刚,肖荣荣;C/S结构与B/S结构的信息系统比较分析[J];情报科学;2003年03期

相关博士学位论文 前2条

1 张雪源;面向音频检索的音频特征分析方法研究[D];华南理工大学;2015年

2 王镪;基于内容的海量音乐检索技术研究[D];北京邮电大学;2013年

相关硕士学位论文 前7条

1 吴娟;基于数字指纹的音乐哼唱检索系统的设计与实现[D];湖南师范大学;2015年

2 赵娟;基于内容的海量音频智能检索与重复性检测[D];太原理工大学;2015年

3 曹清然;电台音乐检索系统设计与实现[D];电子科技大学;2015年

4 郭永帅;基于音频指纹和版本识别的音乐检索技术研究[D];哈尔滨工业大学;2014年

5 陈隽;基于自闭症患儿语言康复训练的语音识别系统的研究[D];重庆理工大学;2013年

6 张磊;音频样例检索技术研究[D];哈尔滨工程大学;2010年

7 王明娟;基于FPGA语音识别系统设计与实现[D];广西师范大学;2009年



本文编号:2594323

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2594323.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户929be***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com