基于层次语义的Web服装图像智能采集方法
发布时间:2021-11-24 07:08
以大规模智能采集互联网中的服装图像为目的,研究如何利用互联网上服装图像的伴随文本与服装图像概念之间的关联,实现自动采集各语义对应的服装图像。在HITS(Hyperlink-Induced Topic Search)算法的基础上提出一个基于层次语义的图像采集算法SICR(Semantic-based Image Collection Robot)。该算法在层次语义库的支持下,扩充根集与去除链接工厂页面同步进行。在爬取链接网页前,进行锚文字的相似度计算和页面内容的概念分析,舍弃不符合语义的页面,只下载满足语义的服装图像。算法克服了基于文本分析或链接分析的图像自动提取算法的不足,具有较高的准确率和召回率,实验结果证明了SICR算法的有效性。
【文章来源】:计算机科学. 2016,43(S2)北大核心CSCD
【文章页数】:4 页
【部分图文】:
图2SICR算法流程图实验及分析
:2377-2380[24]万玉钗,刘峡壁,韩菲霏,等.用于提高谷歌图像搜索结果的二分类器在线学习方法[J].自动化学报,2014,40(8):1699-1708[25]ZhouN,FanJ.Automaticimage-textalignmentforlarge-scaleWebimageindexingandretrieval[J].PatternRecognition,2015,48(1):205-219(上接第241页)图5压缩后图像的灰度图图4为原始图像的灰度图,图5为图像压缩后的灰度图。可以看出,与图4相比,图5具有较少的信息,可以得到更均匀的图像,压缩后图像的效果比较理想。结束语本文主要研究了利用DCT技术对图像进行压缩,通过Matlab仿真分析了利用DCT技术进行图像的压缩的优点。随着网络媒体的发展,图像压缩技术将进入快速发展时代,尤其是图像压缩标准的建立使它进入实用化和产业化。使用DCT进行图像压缩具有更高的性能,并且它易于实现。DCT具有算法简单、易于硬件实现等优点,从而广泛应用于图像压缩领域,尤其在较高比特率的传输条件下能取得令人满意的压缩效果。然而,它在低比特率条件下的“方块效应”成了不容忽视的“瓶颈”缺陷,其原因在于DCT处理图像时是分块进行的,块与块边界两边的像素相关性不能去掉,从而形成了明显的方块边界。若将DCT变换与其它编码方法(如小波变换、分形等)相结合将得到更好的效果。参考文献[1]张爱华,江中勤,张华.基于粒子群优化算法的分形图像压缩编码[J].计算机技
。(3)在扩充根集R的过程中,HITS直接将页面包含的URL加入到基本集S中,这有可能将一些与主题无关的页面也扩充进来了。算法首先剔除了LinkFarm页面;然后对URL的AnchorText进行了分析,若其与主题相关,直接将其扩充到S,否则再提取页面概念并进行相关度计算。虽然以时间付出为代价,但是换来了整个提取页面的质量的提高。假设页面长度为n,对页面文本的处理仅限于关键词的提取,在关键词集合不大的时候,算法的时间复杂度接近于O(n)。图2SICR算法流程图4实验及分析实践中,对服装图像的采集方法一般是基于网页中图像的标签采集或利用Google等搜索引擎返回图像[24,25],这样采集的图像召回率和准确率会受到一定的影响。本文的实验主题是基于纺织服装领域的,搜索深度为2,起始种子为20(与纺织服装紧密相关的国内外权威网站个数),阈值设为0.15。查询关键词包括30个中文关键字和10个英文关键字,实验结果只列出了6个关键字,分别是“燕尾服”、“连衣裙”、“真丝”、“开衫”、“Cardigan”、“Tuxedo”。考虑到Google搜索引擎被公认为目前查询精度最高的搜索引擎,所以把实验结果和Google、HITS算法进行了比较(Google数据于2015年10月22日获取)。由于SICR算法目前仅索引com和org网址,为了保证对比的公正性,在Google检索中使用了域名限制为“site:com”和“site:org”,对所有图像进行了人工评判。实验数据由表1所列。
【参考文献】:
期刊论文
[1]数据挖掘技术在中医病证规律研究中的应用进展[J]. 孙颖伟,眭蕴慧,张磊,陈亚光,殷海波. 北京中医药. 2015(01)
[2]基于SNA的网络舆情演变分析方法[J]. 吴少华,崔鑫,胡勇. 四川大学学报(工程科学版). 2015(01)
[3]用于提高谷歌图像搜索结果的二分类器在线学习方法(英文)[J]. 万玉钗,刘峡壁,韩菲霏,童坤琦,刘宇. 自动化学报. 2014(08)
[4]大规模互联网图像检索与模式挖掘[J]. 张磊. 中国科学:信息科学. 2013(12)
[5]基于主题相关概念和网页分块的主题爬虫研究[J]. 黄仁,王良伟. 计算机应用研究. 2013(08)
本文编号:3515479
【文章来源】:计算机科学. 2016,43(S2)北大核心CSCD
【文章页数】:4 页
【部分图文】:
图2SICR算法流程图实验及分析
:2377-2380[24]万玉钗,刘峡壁,韩菲霏,等.用于提高谷歌图像搜索结果的二分类器在线学习方法[J].自动化学报,2014,40(8):1699-1708[25]ZhouN,FanJ.Automaticimage-textalignmentforlarge-scaleWebimageindexingandretrieval[J].PatternRecognition,2015,48(1):205-219(上接第241页)图5压缩后图像的灰度图图4为原始图像的灰度图,图5为图像压缩后的灰度图。可以看出,与图4相比,图5具有较少的信息,可以得到更均匀的图像,压缩后图像的效果比较理想。结束语本文主要研究了利用DCT技术对图像进行压缩,通过Matlab仿真分析了利用DCT技术进行图像的压缩的优点。随着网络媒体的发展,图像压缩技术将进入快速发展时代,尤其是图像压缩标准的建立使它进入实用化和产业化。使用DCT进行图像压缩具有更高的性能,并且它易于实现。DCT具有算法简单、易于硬件实现等优点,从而广泛应用于图像压缩领域,尤其在较高比特率的传输条件下能取得令人满意的压缩效果。然而,它在低比特率条件下的“方块效应”成了不容忽视的“瓶颈”缺陷,其原因在于DCT处理图像时是分块进行的,块与块边界两边的像素相关性不能去掉,从而形成了明显的方块边界。若将DCT变换与其它编码方法(如小波变换、分形等)相结合将得到更好的效果。参考文献[1]张爱华,江中勤,张华.基于粒子群优化算法的分形图像压缩编码[J].计算机技
。(3)在扩充根集R的过程中,HITS直接将页面包含的URL加入到基本集S中,这有可能将一些与主题无关的页面也扩充进来了。算法首先剔除了LinkFarm页面;然后对URL的AnchorText进行了分析,若其与主题相关,直接将其扩充到S,否则再提取页面概念并进行相关度计算。虽然以时间付出为代价,但是换来了整个提取页面的质量的提高。假设页面长度为n,对页面文本的处理仅限于关键词的提取,在关键词集合不大的时候,算法的时间复杂度接近于O(n)。图2SICR算法流程图4实验及分析实践中,对服装图像的采集方法一般是基于网页中图像的标签采集或利用Google等搜索引擎返回图像[24,25],这样采集的图像召回率和准确率会受到一定的影响。本文的实验主题是基于纺织服装领域的,搜索深度为2,起始种子为20(与纺织服装紧密相关的国内外权威网站个数),阈值设为0.15。查询关键词包括30个中文关键字和10个英文关键字,实验结果只列出了6个关键字,分别是“燕尾服”、“连衣裙”、“真丝”、“开衫”、“Cardigan”、“Tuxedo”。考虑到Google搜索引擎被公认为目前查询精度最高的搜索引擎,所以把实验结果和Google、HITS算法进行了比较(Google数据于2015年10月22日获取)。由于SICR算法目前仅索引com和org网址,为了保证对比的公正性,在Google检索中使用了域名限制为“site:com”和“site:org”,对所有图像进行了人工评判。实验数据由表1所列。
【参考文献】:
期刊论文
[1]数据挖掘技术在中医病证规律研究中的应用进展[J]. 孙颖伟,眭蕴慧,张磊,陈亚光,殷海波. 北京中医药. 2015(01)
[2]基于SNA的网络舆情演变分析方法[J]. 吴少华,崔鑫,胡勇. 四川大学学报(工程科学版). 2015(01)
[3]用于提高谷歌图像搜索结果的二分类器在线学习方法(英文)[J]. 万玉钗,刘峡壁,韩菲霏,童坤琦,刘宇. 自动化学报. 2014(08)
[4]大规模互联网图像检索与模式挖掘[J]. 张磊. 中国科学:信息科学. 2013(12)
[5]基于主题相关概念和网页分块的主题爬虫研究[J]. 黄仁,王良伟. 计算机应用研究. 2013(08)
本文编号:3515479
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3515479.html