基于Shazam算法的音频样例检索技术研究

发布时间：2020-03-22 02:25

【摘要】：随着大数据时代的到来,互联网上的多媒体信息量呈爆炸式增长。传统的基于文本标注的检索已经不能满足人们对多媒体检索的需求。基于多媒体文件自身内容信息的检索已经成为近年来的研究热点,其中样例检索(Query-by-Example,QbE)具有使用方便、无需标注信息等特点。以音频为例,人们可以通过提交未知的音频片段来搜索数据库,从而获取该段音频的相关信息。Shazam音频检索是样例检索的一种重要形式,它具有体积小、检索速度快等优点。本文通过对传统Shazam音频检索算法进行改进,旨在提高用户检索的效率,主要工作如下:1、搭建基线音频检索系统。将音乐检索算法Shazam引入到基于语音的样例检索中,组成基于音频的样例检索基线系统,并对系统进行性能测试。2、系统优化。在检索匹配中去掉排序靠后的候选音频,取前TopN首音频分别求最大时间偏移量,降低系统的检索时间;基于索引空间交换时间的方法,探究了索引空间中重要参数对系统性能的影响,选取了最合适的参数构造索引空间,提升了系统的性能。3、提出了一种新的特征提取算法。原Shazam算法中特征提取是选取每一帧的能量峰值点作为特征点,而新的特征提取算法选取基于矩形区域中能量阈值点作为特征点。首先是在理论上分析了改进算法的可行性,然后分别通过纯净音频和室内噪声环境录制音频,进行两种算法的对比试验,验证了改进算法能够提取更具有代表性的特征点,降低系统的检索错误率。以8s音频片段为例,改进算法比原Shazam算法错误率相对降低55.3%。4、用C,Java编程语言,采用C/S模式,实现了APP客户端和服务器模式的音频样例检索系统。对系统的设计与实现做了具体的分析,对主要的模块进行了介绍,并对系统性能进行了测试。
【图文】：

流程图,特征提取,流程,静态特征

l——1,2, ,L滤波器频率特性为：( ), ( ) ( )( ) ( )( ), c( ) ( )( ) ( )( )ik o lo l k c lc l o lh l kl k h lh l c lW k (2.6（4）对滤波器输出取对数，再进行离散余弦变换(Discrete Cosine TransformDCT)，得到 MFCC：1( ) lg ( ) cos[ ( 0.5) ]LMFCClC n Y l l n L (2.7式中，n——上述得到的 MFCC 作为静态特征，进行一阶与二阶差分，可达到相应的动态特征。

滤波器,频率,音频信息,音频

图 2.3 相邻 Mel 滤波器频率的关系2.2 音频信息检索的评价音频信息检索的评价是音频信息检索领域中的一项重要工作，通过比较各种检索技术的优劣，，对改进现有检索系统的性能以及开发新的应用领域和研究方向等方面都发挥着不可替代的作用[40]。信息检索中通常采用准确率、召回率、综合性能 F 测度，还有检索时间等指标衡量。本文的音频检索系统采用下面几个性能指标进行评价：（1）准确率（Precision Rate, 也称为查准率）是指检索出相关信息的文档和实际检索出的文档的比值。本文中是指检索出正确的音频个数和实际检索出的总的音频个数的比值，其公式定义如下：检索出正确的音频个数
【学位授予单位】：重庆邮电大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP391.3;TN912.3

【参考文献】