跨媒体检索中近邻关系可逆性问题的研究
【摘要】 信息技术的发展日新月异,每时每刻都有大数量、多种类的数字媒体数据在互联网上产生和传播。如何在浩如烟海的数据中找到所需要的媒体数据,以方便人们的生产和生活,是数字媒体检索的研究意义。在实际的媒体检索实践中,可以观察到普遍存在一种近邻关系非可逆的现象:假设媒体对象i在媒体对象j的检索结果中,但媒体对象j并不一定存在于媒体对象i的检索结果中。然而,如果两个媒体对象各自存在于对方的检索结果中,也就是两个媒体对象满足近邻关系可逆性,那么这两个媒体对象很有可能是真正相似的。于是就可以利用近邻关系可逆性来帮助提高检索精度。近邻关系非可逆的现象在检索结果中普遍存在,但并没有引起学术界太多的关注,针对于近邻关系可逆性问题的研究工作可以说在国际上都屈指可数。本文针对这种媒体检索中出现的近邻关系可逆性问题进行了深入研究,分析了近邻关系可逆性对于近邻数量选择的敏感性,并分别针对图像检索和跨媒体检索分别提出了学习近邻关系可逆性的相关算法。本文的主要研究工作包括:(1)针对图像检索领域中近邻可逆性,提出了两种基于近邻关系可逆性验证的图像重排序算法,包括硬重排序算法和软重排序算法。通过离线的为每一个数据库图像计算一个近邻距离,这两种算法可以避免高计算复杂度,高效、有效的提高图像检索系统的检索精度。(2)针对图像检索中近邻关系对于近邻数量的敏感性,提出了一种自适应近邻数量选择算法。该算法可以自动的为数据库中的每个图像选择一个合适的近邻数量,从而避免算法对不同类型图像数据库的差异性,提高了近邻关系可逆性学习算法的鲁棒性。(3)针对跨媒体检索,将近邻关系可逆性引入到跨媒体相似性矩阵的计算中,提高了跨媒体语义关联的准确性。通过分析一种利用近邻关系建立的跨媒体检索框架,为该框架引入近邻可逆性关系,从而提高了跨媒体特征空间在体现跨媒体语义关联的准确性。实验结果表明本文提出的改进方案成功提高了原跨媒体检索框架的检索精度。
1绪论
1.1引言
随着信息技术的飞速发展,信息采集设备(如照相机、摄像机、扫描仪、录音机、摄像头等)被广泛使用,各种规模的处理器的计算能力遵循摩尔定律快速提高,信息存储介质的容量持续增大并且价格又大大降低,网络带宽持续增长,互联网在全世界范围内广泛普及。媒体作为传播信息的媒介,其种类和数量都大大增加,人们不再仅仅满足于只使用文本来传输信息,图片、音视频等多种媒体都成为了人们广泛使用的媒体形式。现如今,在互联网上每时每刻都有数以亿计的多媒体数据在产生和传播。
多媒体数据的快速发展在方便人们生产和生活的同时,也给多媒体技术提出了巨大挑战,如何高效地存储、管理、传播、利用多媒体数据,是多媒体数据研究的主要内容。尤其是多媒体数据的检索,能够让人们快速找到所需要的媒体数据,是多媒体研究的重点问题。多媒体数据具有数量大、种类多、应用广的特点。如今人们处在信息时代,任何一个多媒体釆集设备和多媒体制作软件就是一个产生多媒体数据的数据源,每时每刻都会产生数以亿计的多媒体数据。而目前,包括文本、图像、音频、视频、三维视频、动画等在内多种媒体数据已经成为互联网上大量传播的主要信息载体。多媒体数据在工业生产、科研教育、医疗卫生、商业娱乐等等多个领域得到了广泛应用,极大促进了人类文明的发展和人们生活水平的提高。
另外,多媒体发展的另一重要趋势是多种类型的多媒体数据经常会组织在一起共同表达信息。简单的文字描述或单一的图像描绘等常常无法准确全面地表达传播者要传播的信息和目的,多种媒体形式的共同表达成为了人们广泛使用的方式。比如在浏览新闻网页时,一条新闻常常包括文字、图像和视频多种媒体形式,这种传播新闻的形式更有助于人们准确全面直观的获取新闻内容。还有常用的幻灯片也是多种媒体形式共同表达语义的经典范例,一张幻灯片里常常包含文字、图像、声音、动画甚至视频等多种多媒体数据,这样更加方便演讲者把自己要表达的信息传达给听众。
1.2本文研究的主要问题和贡献
在日常的检索实践中,经常可以发现多媒体检索存在一种相似关系(近邻关系)非可逆问题。即假设媒体对象f在媒体对象的检索结果中,但媒体对象J并不一定存在于媒体对象i的检索结果中。而如果两个媒体对象各自存在于对方的检索结果中,这两个媒体对象很有可能是真正相似的。也就是说,相似关系如果可逆,那么有很大的把握这两个媒体对象是确实相似的。这种现象引起了我们的重视,如何利用这种相似关系的可逆性来帮助提高检索系统的精度,就是本文着力研究的问题。
这种在基于内容的媒体检索中出现的近邻关系非可逆现象没有引起很多的关注,目前在学术领域并没有很多工作是针对这种近邻关系可逆性问题的研究。本文从图像检索中的近邻关系不可逆现象入手,挖掘近邻关系可逆性与图像间相似性的密切关系,针对图像检索和跨媒体检索,笔耕文化传播,提出了若干个学习近邻关系可逆性的算法,以求能够提高媒体检索系统的检索质量。本文的主要研究成果如下:
(1)对于图像检索,提出了基于近邻关系可逆性验证的重排序算法,包括硬排序算法、软排序算法和自适应选择近邻数量的算法。本算法是首先利用离线阶段对每张图片的近邻信息进行存储,然后在检索阶段对检索结果与查询的近邻关系可逆性进行验证,根据验证结果对检索结果进行硬重排序或软重排序,成功提高了检索系统的检索精度。通过这样的方式有效避免了在在线阶段再进行额外的检索,保证了实时检索的效率。
(2)本文分析了图像检索中近邻关系可逆性对于近邻数量选择的敏感性,并针对这种敏感性提出了一种自适应近邻数量选择算法。该算法可以自动的为数据库中的每个图像选择一个合适的近邻数量,从而避免算法对不同类型图像数据库的差异性,提高了近邻关系可逆性学习算法的鲁棒性。
2图像检索的研究综述
本节将试图对图像检索研究进行全面的总结。首先简单介绍图像检索技术的发展历史。然后对基于内容图像检索中的关键技术——图像特征的提取与表示和图像检索框架进行介绍,其中着重介绍较为常见的图像局部特征描述子SIFT描述子以及广泛使用的以词包(Bag-of-words)思想为基础的检索框架及其相关扩展技术。
2.1图像检索技术的发展历史
近年来,随着互联网和多媒体技术的飞速发展,图像成为了被广泛使用的信息载体之一。图像相比于文本和声音具有更加直观、信息量更大等特点。大量图像在互联网上出现,如何科学的利用计算机对图像进行表示,如何系统的对图像进行管理和索引等问题成为了信息技术发展中遇到的新课题,而图像检索已经逐渐成为人们日常工作和生活的基本需求,也是研究机构和数字多M体行业关注的重点。
图像检索的历史,可以追溯到上个世纪七十年代,当时的图像检索主要是基于文本的图像检索(Text-based Image Retrieval)。这种技术需要在离线阶段由人工对图像进行标注,利用每幅图像对应的文本标注进行图像检索。很多的图书管理、档案管理、艺术绘画管理等系统都是使用的这种基于文本标注的图像管理方式。比如 Getty 研究所的 Art & Architecture Thesaurus? Online 系统就使用了近 133000个术语对艺术、建筑等方面的图像进行描述,通过30多个等级目录和7方面的属性特征来对图像进行分类。但这种方法具有很大的局限性,首先它不适于海量图像的检索,人工标注的进度远远赶不上互联网上图像数量的增长,时效性较差;另外人工标注具有较大的主观性和错误率,很多情况下很难用恰当的文本来对某些图像进行标注,而有限的文本也难以对图像的所有内容进行准确而全面的描述。从检索技术上来说,基于文本的图像检索实际上是文本检索技术的一种扩展,但直到现在,基于文本的图像检索技术仍然广泛应用在科研和商业领域,各大搜索弓丨擎的图像检索功能在很大程度上仍然利用了基于文本的图像检索技术,通过机器学习、自然语言处理等技术,图像标注变得更加便利和准确,越来越多的基于文本的图像检索系统不再需要人工标注。另外,使用文本作为检索关键字进行图像搜索仍然是大部分用户经常习惯使用的图像检索方式,这也给基于内容的图像检索技术的持续发展提供了需求和动力。
2.2图像特征的提取与表示
基于内容的图像检索技术是利用计算机对图像特征进行合理的数学表示,然后利用这样的特征信息对图像进行检索。基于内容的图像检索主要分为以下几个步骤:特征提取,图像索引,查找匹配,返回结果和性能评价等。其中,特征提取这一步至关重要,它是将图像内容转化为若干个计算机能够处理的几何向量,在高维空间中,每个几何向量对应空间中的一个点,于是图像之间的相似程度就转化为高维空间中的多个点之间的距离。距离远,则表示对应的图像不相似;距离近,意味着对应图像相似。
对图像提取特征主要有全局特征和局部特征两种。全局特征主要包括颜色特征、纹理特征、形状特征和空间关系特征等。而比较常用的局部特征描述子有Harris角点, SIFT[7】和SURF等,其中SIFT是最常用的局部图像描述子,本文在实验阶段也是使用这种描述子。本节将对图像特征的提取与表示方法做出总结。
2.2.1 全局特征
对图像提取的全局特征主要包括颜色特征、纹理特征、形状特征和空间关系特征等。本小节将对这几种全局特征做一简要介绍。
颜色特征:通常情况下,颜色特征由颜色直方图来表示,而最常用的是1991年提出的颜色直方图相交方法丨。在多媒体技术中,最常使用的是RGB色度空间,将图像中每一个像素颜色用R (红)G (绿)B (蓝)三原色來表示,每一种颜色都有对应的一个色度空间值,颜色直方图就是表示落在每一个色度空间值上的像素数量。每一幅图像都由一个对应的颜色分布直方图,对其进行向量表示即可形成该图像的颜色特征索引,由此可构成数据库中所有图像的颜色特征索引。根据直方图相差颜色索引(Ll-metric)算法,通过比较落到每个颜色上的像素数量差,利用排序可以得到相似图像。
除了以上基本的颜色直方图作为颜色特征表征图像内容,还有使用颜色矩(ColorMoments)来表示图像的颜色分布。这种方法可以将图像中任何一种颜色分布都可使用它的矩来表示,对三原色的每个颜色分量只需要使用一阶矩(mean)、二阶矩(variance)、三阶矩(skewness)三个低阶矩就可表达图像的颜色分布特征,所以共只需九个分量即可表示图像的颜色特征。
另外,颜色集(Color Sets) 也是常见的图像颜色表示。它的思想是构建一个二进制的颜色索弓I集来加快检索速度。首先把HSV颜色空间量化为若干个子块,然后将图像根据色彩分割成若干个区域,每个区域用量化后的颜色子块来索引。在检索阶段,通过不同颜色索引集之间距离和不同色彩区域空间关系的比较,来得出搜索结果。
颜色聚合向量(Color coherence vector) 很好地解决了颜色直方图和颜色矩无法体现颜色空间分布的问题。它将每个子块中的像素分为两部分,一种是占据连续区域的像素,一种是相对独立的像素,这样将空间分布特征加入到了颜色直方图中,更好的提高了检索精度。
3 跨媒体检索的研究综述..................31
3.1 跨媒体与跨媒体检索的含义.........31
3.2 跨媒体检索相关研究.........32
3.3 本章小结............................35
4 图像检索中的近邻关系可逆性问题.........37
4.1 图像检索中近邻关系可逆性问题的分析.........37
4.1.1对图像检索中近邻关系可逆性问题的观察.........37
4.1.2近邻关系可逆性学习算法——CDM算法.........39
4.1.3近邻关系可逆性问题对于近邻数量选择的敏感性分析.........41
4.2 基于近邻可逆性验证的重排序算法.........42
4.2.1基于近邻可逆性验证的硬重排序算法.........42
4.2.2基于近邻可逆性验证的软重排序算法.........43
4.2.3近邻数量自适应选择算法..............44
4.3 实验部分............................45
5 跨媒体检索中近邻关系可逆性问题.........53
5.1 跨媒体检索框架--LE-RBF框架.........53
5.1.1建立多模态特征空间............................54
5.1.2跨媒体检索............................56
5.2 LE-RBF框架中近邻关系可逆性问题的分析与改进.........58
5.2.1 LE-RBF框架中的近邻关系可逆性问题.........58
5.2.2对LE-RBF框架中利用近邻关系的改进.........58
5跨媒体检索中近邻关系可逆性问题
本章着重研究近邻关系可逆性问题在跨媒体检索中的体现。首先介绍目前已有的一种利用近邻关系建立跨媒体检索的框架,在此框架基础上根据本文对跨媒体检索中近邻关系可逆性问题的分析提出该框架的改进方案。最后通过实验对本文提出的学习近邻关系可逆性的改进方案与已有的检索框架进行比较,验证本文提出的改进算法的改进效果。
5.1 跨媒体检索框架--LE-RBF框架
文献[96]提出了一种利用近邻关系来为跨媒体数据建立低维特征空间,进而进行跨媒体检索的方法,这里称之为LE-RBF检索框架。本节将对该检索框架做一个总结。
在处理跨模态的多媒体数据检索时,研究者经常将表示同一语义的、多种类型的媒体数据组织到同一结构中,这也就是文献[84]中定义的跨媒体数据结构——多媒体文档(multimedia document缩写为MMD),这里同样使用该结构来帮助实现要建立的跨媒体检索框架。
本小节介绍了 LE-RBF检索框架下建立多模态特征空间的基本流程。给定一个由多媒体文档构成的多媒体文档数据库,在建立好的多模态特征空间中,数据库中的任一多媒体文档可以由一个维向量来表示。表达语义相似的多媒体文档在多模态特征空间中将会处于比较接近的位置,它们之间的距离会相对较小。
在通常意义下,跨媒体检索都是以用户提交某种媒体对象数据作为查询,系统将其他种类媒体对象作为查询结果返回。而本节介绍的LE-RBF检索框架能够支持多模态的查询,即一个多媒体文档就可以作为一个査询来检索语义相似的多媒体文档。
在本检索框架下,根据查询多媒体文档是否存在于数据库中,将査询分为两种情况:
(1)当查询多媒体文档存在于数据库中时:
直接使用经过拉普拉斯特征映射之后的/维向量作为代表查询多媒体文档的特征向量。通过查询多媒体文档的/维特征向量与代表其他多媒体文档的/维特征向量相匹配,找到最接近的特征向量所代表的多媒体文档,即为检索到的数据库中与查询多媒体文档最接近的多媒体文档。
(2)当查询多媒体文档不存在于数据库中时:
这种情况下,将查询多媒体文档加入到数据库中重新建立邻接矩阵并使用拉普拉斯特征映射构建多媒体特征向量,是不现实的做法。于是文献[96]的作者釆取了更快速和方便的径向基函数(Radical Basis Function,简称RBF)方法[98]。使用该方法分为训练和查询两个阶段。
6结论
本文重点对于检索中的近邻关系可逆性问题进行了研究,主要工作集中在图像检索和跨媒体检索两种媒体检索框架中的近邻关系可逆性问题。
首先对图像检索和跨媒体检索进行了系统的总结和分析,对常见的图像检索相关算法和跨媒体检索框架思路进行了介绍。然后对图像检索和跨媒体检索中近邻关系不可逆的现象进行了细致的观察和研究,对已经提出的利用近邻关系可逆性来进行检索的算法进行了分析,在此基础上分别针对图像检索和跨媒体检索提出了新的算法来提高检索精度:
(1)对于图像检索,提出了基于近邻关系可逆性验证的重排序算法,包括硬重排序算法和软重排序算法,这两种算法通过在离线阶段对每张图片的近邻信息进行存储,有效避免了在在线阶段再进行额外的检索,对图像检索框架的精度均有稳定的提高。
(2)另外,本文分析了图像检索中近邻关系可逆性对于近邻数量选择的敏感性,并针对这种敏感性提出了一种自适应近邻数量选择算法。该算法可以自动的为数据库中的每个图像选择一个合适的近邻数量,从而避免算法对不同类型图像数据库的差异性,提高了近邻关系可逆性学习算法的鲁棒性。
(3)对于跨媒体检索,分析了一种利用近邻关系建立的跨媒体检索框架的缺陷,将在图像检索中提出的验证近邻关系可逆性的思路运用到该跨媒体检索框架,帮助提高该跨媒体检索框架的检索精度。
本文重点关注的近邻关系不可逆现象广泛存在于多媒体检索中,而利用近邻关系可逆性来帮助提高检索的精度,值得更多研究者的重视。本文提出的验证近邻关系可逆性的思路和方法可以运用到其他媒体类型的检索框架中,来提高检索系统的检索精度。
参考文献:
[1] 李丙洋. 基于音频内容的多媒体文件相似性快速比对研究[D]. 哈尔滨工业大学 2013
[2] 万玲. 代谢综合征中医辨证及中药干预研究[D]. 中南大学 2013
[3] 王锦超. 跨媒体检索技术的研究[D]. 山东农业大学 2013
[4] 谭宁. 基于R-树多维索引结构的优化研究与应用[D]. 湘潭大学 2009
[5] 朱红婷. 网络编码在战术互联网中的应用[D]. 西安电子科技大学 2010
[6] 陈传峰. 基于图像的局部遮挡目标识别关键技术研究[D]. 国防科学技术大学 2007
[7] 刘扬. 基于时空相关性的跨媒体检索模型研究与应用[D]. 河南大学 2009
[8] 蒋利. 血脂紊乱类型与代谢综合征心血管损害的关系[D]. 第三军医大学 2007
[9] 邹文科. 基于本体技术的语义检索及其语义相似度研究[D]. 北京邮电大学 2008
本文编号:10869
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/10869.html