基于MapReduce改进密度峰值大数据搜索研究
发布时间:2022-01-15 09:52
互联网数据的非结构化特征,给大数据的高性能搜索带来严峻挑战,为此,提出基于MapReduce部署的改进密度峰值数据搜索方法。密度峰值摆脱对簇的前置依赖,能够更好的完成数据分类,为进一步优化算法对非结构复杂数据的处理能力,采用截断与高斯分别设计针对离散数据与连续数据的局部密度,并根据密度与欧式距离计算相对距离,进而确定数据聚类中心。另外,设计MapReduce分布式处理框架上,将大数据搜索算法部署其上,通过任务分解提升大数据处理性能。通过实验结果分析,验证基于MapReduce部署的改进密度峰值方法能够有效提升数据搜索效率与准确性,具有良好的海量数据并行计算能力。
【文章来源】:电子制作. 2020,(21)
【文章页数】:3 页
【部分图文】:
数据搜索时间
数据搜索准确率
图3 数据搜索准确率最后对方法的加速比进行实验验证,结果如图4所示。该指标用于衡量MapReduce部署改进密度峰值数据搜索的扩展和并行能力,其值越大越好。从图中结果可知,在数据规模增加的过程中,加速比逐渐增加,并且增速不断提升。这主要是由于Hadoop集群具有良好的并发处理能力,以及MapReduce的任务拆分与结果合并能力,使得本文方法具有良好的扩展和并行效果。
【参考文献】:
期刊论文
[1]基于布谷鸟搜索优化算法的多文档摘要方法[J]. 周诗源,王英林. 计算机工程. 2020(07)
[2]基于递归随机搜索算法的Hadoop平台大数据软件系统研究[J]. 齐超,崔然. 软件. 2020(06)
[3]复杂高维数据的密度峰值快速搜索聚类算法[J]. 陈俊芬,张明,赵佳成. 计算机科学. 2020(03)
[4]一种基于密度峰值的针对模糊混合数据的聚类算法[J]. 陈奕延,李晔,李存金. 计算机工程与科学. 2020(02)
[5]基于Spark并行的密度峰值聚类算法[J]. 孙伟鹏,吴锡生,孟斌. 计算机应用研究. 2020(01)
[6]改进密度峰值支撑点选取及其在度量空间离群检测的应用[J]. 许红龙,唐颂,毛睿,陈国良,刘刚. 小型微型计算机系统. 2017(05)
本文编号:3590404
【文章来源】:电子制作. 2020,(21)
【文章页数】:3 页
【部分图文】:
数据搜索时间
数据搜索准确率
图3 数据搜索准确率最后对方法的加速比进行实验验证,结果如图4所示。该指标用于衡量MapReduce部署改进密度峰值数据搜索的扩展和并行能力,其值越大越好。从图中结果可知,在数据规模增加的过程中,加速比逐渐增加,并且增速不断提升。这主要是由于Hadoop集群具有良好的并发处理能力,以及MapReduce的任务拆分与结果合并能力,使得本文方法具有良好的扩展和并行效果。
【参考文献】:
期刊论文
[1]基于布谷鸟搜索优化算法的多文档摘要方法[J]. 周诗源,王英林. 计算机工程. 2020(07)
[2]基于递归随机搜索算法的Hadoop平台大数据软件系统研究[J]. 齐超,崔然. 软件. 2020(06)
[3]复杂高维数据的密度峰值快速搜索聚类算法[J]. 陈俊芬,张明,赵佳成. 计算机科学. 2020(03)
[4]一种基于密度峰值的针对模糊混合数据的聚类算法[J]. 陈奕延,李晔,李存金. 计算机工程与科学. 2020(02)
[5]基于Spark并行的密度峰值聚类算法[J]. 孙伟鹏,吴锡生,孟斌. 计算机应用研究. 2020(01)
[6]改进密度峰值支撑点选取及其在度量空间离群检测的应用[J]. 许红龙,唐颂,毛睿,陈国良,刘刚. 小型微型计算机系统. 2017(05)
本文编号:3590404
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3590404.html