当前位置:主页 > 社科论文 > 社会学论文 >

基于大数据的密度偏差抽样算法及应用研究

发布时间:2019-05-19 14:07
【摘要】:随着“大数据”概念的提出,数据挖掘成为“大数据”学科领域的研究热点。针对大数据挖掘所消耗的计算资源和空间资源问题,提高处理巨大规模数据的效率已成为解决此类问题的关键。目前在聚类分析领域提高数据挖掘执行效率方法主要有:一是通过改进经典聚类算法;二是借助于抽样技术约简原始数据集规模。在大数据背景下面临数据快速增长,数据增长速度远远大于算法改进、更新速度。因此,抽样技术在聚类分析中显得尤为重要。传统抽样技术运用于偏斜较大和未知分布的数据集,其将导致抽样效果不理想、样本代表性差和类丢失等问题,而采用密度偏差抽样能有效解决此类问题。本文主要利用密度抽样算法对分布不均匀的数据集进行研究,探究适用于该类数据的抽样算法。近年,对密度偏差抽样算法研究主要在于如何根据原始数据集的信息特征划分与数据集保持一致的网格空间。文中针对构建可变网格占用时间资源多的问题,改进已有的可变网格划分方法。首先,该方法根据原始数据集每维数据的均值信息动态确定每维数据划分粒度。其次,利用区间密度相似性调整区间,构建与原始数据集分布保持一致的可变网格空间。最后,将网格空间与密度偏差抽样算法相结合,设计一种基于均值信息构建可变网格的密度偏差抽样优化算法。通过对算法进行验证分析,结果表明该算法处理大规模分布不均匀的数据集,不仅能避免类丢失、有效提高样本质量和缩短抽样时间,而且在执行效率上具有一定优势。
[Abstract]:With the introduction of the concept of big data, data mining has become a hot research topic in the field of big data. Aiming at the problem of computing resources and spatial resources consumed by big data mining, improving the efficiency of processing large-scale data has become the key to solve this kind of problem. At present, the main methods to improve the implementation efficiency of data mining in the field of clustering analysis are as follows: one is to improve the classical clustering algorithm, the other is to reduce the size of the original data set by means of sampling technology. Under the background of big data, the data growth rate is much faster than the algorithm improvement and update speed. Therefore, sampling technology is particularly important in cluster analysis. The traditional sampling technique is applied to the data set with large deviation and unknown distribution, which will lead to the problems of poor sampling effect, poor sample representativeness and class loss, and density deviation sampling can effectively solve this kind of problem. In this paper, the density sampling algorithm is used to study the uneven distribution of data sets, and the sampling algorithm suitable for this kind of data is explored. In recent years, the research on density deviation sampling algorithm mainly lies in how to divide the grid space which is consistent with the data set according to the information characteristics of the original data set. In order to solve the problem that the construction of variable grid takes up a lot of time resources, the existing variable grid partition method is improved in this paper. Firstly, the granularity of each dimension data is determined dynamically according to the mean information of each dimension data of the original data set. Secondly, the interval density similarity is used to adjust the interval to construct a variable grid space which is consistent with the distribution of the original dataset. Finally, a density deviation sampling optimization algorithm based on mean information is designed by combining grid space with density deviation sampling algorithm. Through the verification and analysis of the algorithm, the results show that the algorithm can not only avoid class loss, effectively improve sample quality and shorten sampling time, but also has some advantages in execution efficiency.
【学位授予单位】:贵州民族大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:C81

【参考文献】

相关期刊论文 前6条

1 盛开元;钱雪忠;吴秦;;基于可变网格划分的密度偏差抽样算法[J];计算机应用;2013年09期

2 余波;朱东华;刘嵩;郑涛;;密度偏差抽样技术在聚类算法中的应用研究[J];计算机科学;2009年02期

3 纪良浩;;基于密度偏差抽样的聚类算法研究[J];重庆邮电大学学报(自然科学版);2007年06期

4 张建锦;吴渝;刘小霞;;一种改进的密度偏差抽样算法[J];计算机应用;2007年07期

5 李双虎,王铁洪;Kmeans聚类分析算法中一个新的确定聚类个数有效性的指标[J];河北省科学院学报;2003年04期

6 赵恒,杨万海;模糊K-Modes聚类精确度分析[J];计算机工程;2003年12期

相关会议论文 前1条

1 张建锦;刘小霞;;密度偏差抽样及其在海量数据挖掘中的应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年

相关硕士学位论文 前10条

1 孙志鹏;高维数据聚类算法的研究及应用[D];江南大学;2017年

2 肖雪平;面向大规模数据集的自适应聚类算法并行化研究[D];曲阜师范大学;2016年

3 孙佳;基于聚类算法的大数据样本集优化的研究[D];长春工业大学;2016年

4 张晓;基于超网络的高维数据聚类方法研究[D];山东师范大学;2015年

5 吕辉;基于大数据和高维数据的聚类方法的研究与设计实现[D];云南大学;2015年

6 盛开元;聚类算法在大规模数据集上的应用研究[D];江南大学;2014年

7 赵卓真;一种基于密度与网格的聚类方法[D];中山大学;2012年

8 段明秀;层次聚类算法的研究及应用[D];中南大学;2009年

9 连健;基于GIS的抽样框编制与抽样技术方法研究[D];首都师范大学;2008年

10 朱强;粒度计算在聚类分析中的应用[D];安徽大学;2007年



本文编号:2480786

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/shgj/2480786.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户376cd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com