大数据环境下高维数据的快速重复检测方法
本文选题:大数据 + 高维数据 ; 参考:《计算机研究与发展》2016年03期
【摘要】:大数据时代多源、异构、海量的数据正逐渐成为各种应用的主流.多源异构不可避免地会使数据出现重复,同时庞大的数据量对重复检测的效率提出了极高的要求,传统技术在大数据环境下并不能很好地对高维数据进行重复检测,就此问题展开研究,分析了传统SNM类方法的不足,将重复问题概化为一类特殊的聚类问题,利用R-树建立了高效的索引,利用聚类簇的特性减少了在R-树叶子中比较的次数,利用重复检测的Apriori性质实现了对高维数据集并行处理.实验结果表明,提出的算法能有效地提高高维数据的重复检测效率.
[Abstract]:In the era of big data, multi-source, heterogeneous and massive data are gradually becoming the mainstream of various applications. Multi-source heterogeneity will inevitably lead to duplication of data. At the same time, the huge amount of data sets a high demand for the efficiency of repeat detection. The traditional technology can not detect high-dimensional data in big data environment. In this paper, the shortcomings of traditional SNM clustering methods are analyzed, the repetition problem is generalized as a special clustering problem, the efficient index is established by using R- tree, and the number of comparisons in leaves of R- tree is reduced by using the characteristics of cluster. Parallel processing of high dimensional data sets is realized by using the Apriori property of repetitive detection. Experimental results show that the proposed algorithm can effectively improve the efficiency of high dimensional data repetition detection.
【作者单位】: 暨南大学信息科学技术学院;中山大学信息科学与技术学院;
【基金】:国家自然科学基金项目(61472453,61272073,61401177,61572232,U1401256,U1501252) 广东省自然科学基金项目(S2013020012865) 广东省科技计划基金项目(2013B010401017)~~
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 余元辉;邓莹;;一种新的高维数据聚类自适应算法的研究[J];沈阳化工大学学报;2010年02期
2 王寅峰;刘昊;狄盛;胡昊宇;;一种支持高维数据查询的并行索引机制[J];华中科技大学学报(自然科学版);2011年S1期
3 周勇;卢晓伟;程春田;;非规则流中高维数据流典型相关性分析并行计算方法[J];软件学报;2012年05期
4 王素芳;;基于组件的高维数据降维方法研究[J];电脑与电信;2012年10期
5 贺玲;蔡益朝;杨征;;高维数据聚类方法综述[J];计算机应用研究;2010年01期
6 赵连伟,罗四维,赵艳敞,刘蕴辉;高维数据流形的低维嵌入及嵌入维数研究[J];软件学报;2005年08期
7 杨雪梅;董逸生;徐宏炳;刘学军;钱江波;王永利;;高维数据流的在线相关性分析[J];计算机研究与发展;2006年10期
8 黄斯达;陈启买;;一种基于相似性度量的高维数据聚类算法的研究[J];计算机应用与软件;2009年09期
9 吴翌琳;林寅;陈昊;;基于色差法的高维数据展示方法初探[J];统计与决策;2011年07期
10 武森;冯小东;吴庆海;;基于稀疏指数排序的高维数据并行聚类算法[J];系统工程理论与实践;2011年S2期
相关会议论文 前6条
1 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
2 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 刘运涛;鲍玉斌;吴丹;冷芳玲;孙焕良;于戈;;CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘文慧;;PCA与PLS用于高维数据分类的比较性研究[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 刘喜兰;冯德益;王公恕;朱成喜;冯雯;;脸谱分析在中进期地震跟踪预报中的应用[A];中国地震学会第四次学术大会论文摘要集[C];1992年
相关重要报纸文章 前1条
1 本报记者 李双艺;引领高维数据分析先河[N];吉林日报;2013年
,本文编号:1901333
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1901333.html