音频检索是音频数据管理的核心技术,被广泛应用于音乐识别、广告监控、版权保护等任务中。传统的音频检索主要通过寻找好的音频指纹与指纹索引技术,专注于提高检索的精度和召回率。随着大数据时代的到来,音频大数据不仅维度高,而且数量大;同时,人们对于检索速度或性能的追求也随着技术的进步而不断提升,因此,效率成为音频检索的主要焦点。目前,根据音频大数据高维和大容量的特性,提高音频大数据检索效率的途径有两种。一是针对音频大数据的高维特性,使用数据简化技术,缩小指纹的数据量,以降低后续检索和匹配过程的计算量,可以实现音频检索的显著加速。使用此类方法不仅得到的指纹维度依然很高,而且会在一定程度上降低检索精度和召回率。现有的相关研究大部分聚焦于简化音频数据的指纹提取技术,很少使用大数据技术对音频指纹进行进一步简化。二是针对音频大数据的大容量特性,采用数据过滤技术,快速排除大量不相关音频,降低需要匹配的指纹数量。此类方法的精度和召回率高度依赖所选指纹的鲁棒性。现有的相关研究主要聚焦于使用索引进行过滤,但是对于大数据来说,索引过滤得到的候选集依旧很大。基于以上音频大数据检索的研究现状,本文分别对高维数据简化、大容量数据过滤、高效检索策略和指纹匹配方式进行研究,以实现更高效的音频大数据检索。本研究以音频大数据管理为主要手段,通过创新组织和处理指纹数据的方法和技术,综合运用数据简化和数据过滤两种途径,并选择一种最佳的音频指纹和检索策略的组合,在保证检索的精度和召回率的前提下,减少存储资源消耗,实现查询音频的高效检索。本文的主要贡献和创新点如下:(1)提出两种高维数据简化方法使用降维技术,结合特征袋(Bag-of-Feature,BoF)思想,提出一种粗粒度的中间指纹生成算法;使用采样技术,提出一种跨间隔随机采样算法。两种高维数据简化方法都可以生成数据量极小的简化指纹集,实现计算数据量的跨数量级的缩减。(2)提出两种大容量数据的多级过滤技术提出中间指纹过滤、指纹间隔阈值过滤、计数排序动态阈值过滤等多项过滤技术,并结合斐波那契索引过滤技术以加强过滤幅度。提出两种多级过滤的组合:由斐波那契索引过滤、中间指纹过滤、指纹间隔阈值过滤级联组成的以降维为核心的三级过滤,以及由斐波那契索引采样过滤、计数排序动态阈值过滤、指纹间隔阈值过滤级联组成的以采样为核心的三级过滤。这两种组合均能够快速排除大量不相关音频,使需要匹配的候选音频数量大幅度减少,从而将检索速度提高几个数量级。(3)提出两种高效检索策略结合降维与多级过滤,提出一种高效的级联过滤-验证检索方法(Cascaded Filtering-and-Verifying Retrieval,CFR),在维持精度和召回率的同时,检索速度比实验对比中效果最好的中间指纹采样匹配检索方法提高近70倍;结合采样与多级过滤,对CFR进行改进,提出一种采样计数检索方法(Sampling and Counting Retrieval,SC),解决了CFR无法检索短于6秒的音频片段的问题,平均检索速度比CFR快27倍,并且通过去掉中间指纹数据库和只记录子指纹对应音频的ID号来重构哈希表,内存节约达50%以上。(4)提出一种抗时间缩放的指纹匹配技术通过挖掘Philips指纹中的时间对应关系,合理地进行指纹匹配,提出一种基于阈值的转折点对齐指纹匹配方法,并将其运用到SC上,实现了一种抗时间缩放的增强型检索方法(Enhanced Sampling and Counting Retrieval with Time-Stretch Resistance,eSC),突破Philips指纹无法抵抗时间缩放干扰的难题,实现了音频指纹和检索策略的优化组合。该方法可以使Philips指纹抵抗70%到130%的时间缩放,与最好的抵抗时间缩放的指纹Quads相当,并对其它噪声干扰下的检索性能也有所提升。该方法能够扩展到任何使用类Philips指纹的检索系统中,增强抵抗时间缩放的能力。
【学位单位】:太原理工大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TN912.3;TP311.13
【部分图文】: 图 2-5 Philips 指纹提取过程Figure 2-5 The process for Philips fingerprint extraction先,音频信号被划分成帧长 0.37 秒、加汉宁窗、重叠率为 31/32 的重叠帧。续子指纹的间隔长度为11.6毫秒,见图 2-6。这样极度的重叠保证了时移不
图 3-9 不同大小数据集上的平均检索时间Figure 3-9 Average retrieval time with different data sizes
哈希表的分布
【相似文献】
相关期刊论文 前10条
1 黄晓林;Authorware中多音频流的处理[J];中小学信息技术教育;2005年03期
2 刘洪涛,沈乐君;实时音频流分割与控制系统[J];重庆教育学院学报;2004年03期
3 沈乐君,程小平;基于模式的实时音频流分割与控制系统[J];计算机工程与设计;2004年07期
4 沈乐君,程小平;音频流分割和多模式控制的设计与实现[J];西南师范大学学报(自然科学版);2004年06期
5 谭永东,付裕,辛志红;Web的音频流技术及应用[J];微电脑世界;1996年12期
6 罗森林;李金玉;潘丽敏;;特定类型音频流泛化识别方法[J];北京理工大学学报;2011年10期
7 张一彬;周杰;边肇祺;张大鹏;;一种新的基于分类的音频流分割方法[J];电子学报;2006年04期
8 张一彬;周杰;边肇祺;张大鹏;;一种基于内容的音频流二级分割方法[J];计算机学报;2006年03期
9 闫改珍;师卫;;基于RTP的音频流多播系统的JMF实现[J];科技情报开发与经济;2007年05期
10 温翠英;;网络音频流数据传输探讨[J];山西电子技术;2008年01期
相关博士学位论文 前1条
1 姚姗姗;音频大数据检索关键技术研究[D];太原理工大学;2018年
相关硕士学位论文 前10条
1 王文娟;锅炉故障噪声嵌入式音频流服务器的研究[D];武汉理工大学;2008年
2 张浩;连续音频流分割分类系统研究[D];郑州大学;2011年
3 刘洪涛;基于能量的音频流分割和多模式自动机控制系统[D];西南师范大学;2004年
4 马乐圣;数字音频流信息编解码与技术研究[D];南京理工大学;2014年
5 肖辉;基于Android的蓝牙音频流播放器软件系统的研究[D];五邑大学;2013年
6 张宏;多路实况数字音频流服务器设计的研究[D];太原理工大学;2007年
7 彭凡凡;基于多深度模型集成的音频场景分类方法研究[D];哈尔滨工业大学;2017年
8 马洪朋;一种嵌入式Linux音频流媒体终端系统的设计与实现[D];东南大学;2006年
9 闫改珍;音频流媒体技术在嵌入式系统中的跨平台实现研究[D];太原理工大学;2007年
10 金晶;音频流媒体播放器的设计与研究[D];浙江大学;2007年
本文编号:
2889021
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2889021.html