Hadoop平台下基于LSH的图像索引系统的研究与实现
发布时间:2021-10-19 09:44
图像相似性检索是计算机科学中的一个基础问题,随着数据特征的维度升高,树型结构索引算法查找效率急剧下降,这就是很多近邻搜索遭遇的“维度灾难”问题,解决这一问题的一种方法就是采用局部敏感哈希算法(Locality Sensitive Hash,LSH)。LSH算法的性能对几个参数非常敏感,而这些参数必须由算法实现时选择。同时,传统的集中式图像检索系统当面对海量数据时就会暴露出性能瓶颈问题。本文针对上述特性及现存方案的一些不足,开展Hadoop平台下基于LSH算法的图像索引系统的研究。本文首先研究了图像检索的关键技术,分析了Hadoop平台的结构组成、基本特性等,基于LSH算法利用Hadoop云平台的Master-Slaver结构来存储海量图像数据,并以此作为分而治之地处理图像的依据,为海量图像提供有效的检索方法。这为全方位的分析和研究图像检索奠定了基础,为原型系统设计与实现提供了理论和技术方法。考虑到LSH算法中的参数与数据集有关,本文抽取数据集样本,观察数据集分布,建立数据集分布和参数的关系模型,提出参数自适应优化的方法,有助于提高召回率和准确率。针对LSH算法参数选择困难的特点,本文提...
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
Hadoop集群配置信息
图 4.8 Hadoop 集群配置信息4.3.3 性能测试由于 LSH 算法是基于 Hadoop 的分布式算法,故首先需要验证分布式计算对于算法时间性能的影响程度。由于实验条件限制,采用的实现机器是 1 台物理机作为主节点和 6 台虚拟机作为从节点,物理机主机名为 master,虚拟机主机名为 slaver1,slaver2…slaver6,每台虚拟机分配单核 CPU 和 512M 内存,磁盘分配 20G,网络采用 NAT 方法连接。接下来要验证不同的节点个数对实验运行时间的影响,实验验证时所使用的从节点个数分别为 2,3…6。当从节点个数为 4 的时候,实验结果如图 4.9 所示:
图 4.9 从节点个数为 4 时运行时间不同个数从节点的运行时间如图 4.10 所示:图 4.10 不同个数从节点和运行时间的关系示意图从上图中可以看出,当从节点个数逐渐递增的时候,程序运行时间逐渐递减,可以体现出 Hadoop 集群对于 LSH 算法有一定的加速效果,但加速效果会减缓,是由于算法的运行速
【参考文献】:
期刊论文
[1]智慧城市中的大数据[J]. 李德仁. 中国建设信息. 2014(03)
[2]高维数据的相似性度量研究[J]. 贺玲,蔡益朝,杨征. 计算机科学. 2010(05)
[3]HPMR在并行矩阵计算中的应用[J]. 郑启龙,吴晓伟,房明,王昊,汪胜,王向前. 计算机工程. 2010(08)
[4]网络计算系统的分类研究[J]. 徐志伟,廖华明,余海燕,查礼. 计算机学报. 2008(09)
硕士论文
[1]基于Hadoop的图像检索算法研究与实现[D]. 陈永权.华南理工大学 2013
本文编号:3444631
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
Hadoop集群配置信息
图 4.8 Hadoop 集群配置信息4.3.3 性能测试由于 LSH 算法是基于 Hadoop 的分布式算法,故首先需要验证分布式计算对于算法时间性能的影响程度。由于实验条件限制,采用的实现机器是 1 台物理机作为主节点和 6 台虚拟机作为从节点,物理机主机名为 master,虚拟机主机名为 slaver1,slaver2…slaver6,每台虚拟机分配单核 CPU 和 512M 内存,磁盘分配 20G,网络采用 NAT 方法连接。接下来要验证不同的节点个数对实验运行时间的影响,实验验证时所使用的从节点个数分别为 2,3…6。当从节点个数为 4 的时候,实验结果如图 4.9 所示:
图 4.9 从节点个数为 4 时运行时间不同个数从节点的运行时间如图 4.10 所示:图 4.10 不同个数从节点和运行时间的关系示意图从上图中可以看出,当从节点个数逐渐递增的时候,程序运行时间逐渐递减,可以体现出 Hadoop 集群对于 LSH 算法有一定的加速效果,但加速效果会减缓,是由于算法的运行速
【参考文献】:
期刊论文
[1]智慧城市中的大数据[J]. 李德仁. 中国建设信息. 2014(03)
[2]高维数据的相似性度量研究[J]. 贺玲,蔡益朝,杨征. 计算机科学. 2010(05)
[3]HPMR在并行矩阵计算中的应用[J]. 郑启龙,吴晓伟,房明,王昊,汪胜,王向前. 计算机工程. 2010(08)
[4]网络计算系统的分类研究[J]. 徐志伟,廖华明,余海燕,查礼. 计算机学报. 2008(09)
硕士论文
[1]基于Hadoop的图像检索算法研究与实现[D]. 陈永权.华南理工大学 2013
本文编号:3444631
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3444631.html
最近更新
教材专著