当前位置:主页 > 科技论文 > 软件论文 >

基于分布式数据流的大数据分类模型和算法

发布时间:2018-08-24 21:29
【摘要】:大数据是需求驱动的概念.随着数据库系统的普及和因特网服务的扩张,企业或者个人可用的数据正在膨胀,已有的技术很难满足大数据时代的数据分析需求,因此需要探索新的理论和方法来支撑大数据的应用.虽然大数据的4V属性已经被广泛讨论,但是它们大多描述的仍然是大数据的表象,所以很难从中抽象出统一的数据格式,因而进一步寻找可用于数据格式化的技术特征是必要的.面向于以分布式和流动性为主要技术特征的大数据应用需求,文中以分布式数据流为数据表达载体,在此基础上设计对应的大数据分类模型和挖掘算子.同时针对大数据的分类挖掘需要解决的关键问题来构建关键步骤对应的算法.理论上证明了文中给出的微簇合并技术和样本数据重构方法的合理性.实验表明:文中提出的基于分布式数据流的大数据的分类模型及算法不仅能大幅度地减少网络节点间的通讯代价,而且可以获得平均10%左右的全局挖掘精度的提升(对比已有的典型算法DS-means);虽然时间花费略高于DS-means,但是两者在不同的数据容量测试下相差很小、且时间攀升趋势相当.
[Abstract]:Big data is a demand-driven concept. With the popularity of database systems and the expansion of Internet services, the data available to enterprises or individuals are expanding, and existing technologies are difficult to meet the data analysis needs of big data's time. Therefore, we need to explore new theories and methods to support big data's application. Although big data's 4V attribute has been extensively discussed, most of them still describe the representation of big data, so it is difficult to abstract a unified data format from it. Therefore, it is necessary to further search for the technical features that can be used for data formatting. In order to meet the requirements of big data, whose main technical features are distributed and fluidity, this paper uses distributed data stream as data expression carrier, and then designs the corresponding big data classification model and mining operator. At the same time, according to big data's classification mining need to solve the key problems to construct the corresponding algorithm of key steps. It is proved theoretically that the microcluster merging technique and the reconstruction method of sample data are reasonable. Experiments show that big data's classification model and algorithm based on distributed data flow can not only greatly reduce the communication cost among network nodes. The average global mining accuracy can be improved by about 10% (compared with the existing typical algorithm DS-means). Although the time cost is slightly higher than that of DS-means, the difference between them under different data capacity tests is very small, and the trend of time increase is similar.
【作者单位】: 中央财经大学信息学院;
【基金】:国家自然科学基金(62173293) 中央财经大学学科建设基金(CUFE00100101)资助~~
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期

2 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期

3 刘明晶;数据挖掘[J];华南金融电脑;2001年04期

4 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期

5 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期

6 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期

7 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期

8 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期

9 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期

10 ;2002数据挖掘研讨班[J];计算机工程;2002年06期

相关会议论文 前10条

1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年

7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年

9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

相关重要报纸文章 前10条

1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年

2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年

7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年

9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年

10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年

相关博士学位论文 前10条

1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年

2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年

3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年

4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年

6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年

7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年

8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年

9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年

10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年

相关硕士学位论文 前10条

1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年

2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年

3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年

4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年

5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年

6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年

7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年

8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年

9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年

10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年



本文编号:2202096

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2202096.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b905c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com