基于动态聚类的序列保持哈希算法的研究

发布时间:2021-10-19 08:17
  互联网的高速发展引起了数据的爆炸式增长,使得检索复杂度高,为解决这一难题,基于哈希的图像检索方法将高维数据映射为紧凑的二进制编码,利用检索速度较快的汉明距离做相似性计算。虽然哈希方法在降低内存、提高检索速度等方面表现优异,但是其检索准确率相对较低。为了提高哈希算法的近邻检索准确率,本文将从如何获得较低量化损失和提高排名靠前数据点相似性两个方面展开研究,其主要研究内容和创新成果如下:1.提出了迭代自组织哈希算法,使用乘积量化方法划分特征空间,在每个子空间中使用迭代自组织数据分析方法对子数据集进行聚类,并利用码字索引之间的汉明距离近似其欧氏距离。为解决随机初始化聚类中心引起的局部最优问题,提出最远平均距离方法,通过依次划分样本数多且方差大的类,来确定初始聚类中心点。因分裂阈值和合并阈值需要通过交叉验证获得,引入最小生成树来获取合并阈值,通过计算每类分量中标准差的最大值得到分裂阈值。最后,为解决固定编码长度表示范围有限的问题,构建了多重编码机制,为每个数据分配多重二进制编码。2.提出了顶部优化的序列约束哈希算法,旨在汉明空间中保持数据间的四次序列关系,由于通过比较的方式获得的排序元组复杂度太... 

【文章来源】:山东理工大学山东省

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

基于动态聚类的序列保持哈希算法的研究


在百度、必应和搜狗三大浏览器上搜索关键字“足球”的反馈结果

方法,哈希算法,伪代码,理工大学


山东理工大学硕士学位论文第三章迭代自组织哈希算法18图3.1最远平均距离方法Fig.3.1Thefarthestaveragedistancemethod最远平均距离的伪代码如表3.1所示,其中,K’表示当前类,K表示给定的聚类中心数,C={c[i]|i=1,2,...,K}用来统计每类包含数据点数目,max用来存储C中最大值的索引。

框架图,取值,情况,自组织


山东理工大学硕士学位论文第三章迭代自组织哈希算法21(c)β≥1.0图3.3β的取值情况Fig.3.3Thevalueofβ3.2.3优化后的迭代自组织数据分析训练数据集参数设置聚类中心初始化近邻聚类?minjNN删除第j类分裂或合并?退出是否计算分裂阈值计算合并阈值分裂操作合并操作合并是分裂收敛或达到最大迭代次数?否图3.4迭代自组织数据分析框架图Fig.3.4Theanalysisframeworkofiterativeself-organizingdata

【参考文献】:
期刊论文
[1]迭代自组织哈希算法[J]. 韩雪莲,田爱奎,王振,卢海涛.  计算机应用研究. 2020(05)
[2]Truser:一种基于可信用户的服务推荐方法[J]. 何鹏,吴浩,曾诚,马于涛.  计算机学报. 2019(04)
[3]基于迭代自组织数据分析算法与蚁群算法建立有机物黏度的QSPR模型[J]. 时静洁,陈利平,陈网桦.  物理化学学报. 2014(05)

博士论文
[1]提升近邻检索性能的二值编码算法[D]. 王振.吉林大学 2017



本文编号:3444500

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3444500.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1b511***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com