当前位置:主页 > 科技论文 > 软件论文 >

基于分布式计算的数据挖掘算法研究与实现

发布时间:2018-12-18 01:39
【摘要】:随着互联网访问便捷性的提高,互联网的线上活动已经成为一个越来越受欢迎的新兴领域。互联网的快速发展,扩大了互联网的应用领域。由此,互联网行业也产生了大量的用户数据。传统的单机计算方式,已经逐渐难以满足互联网行业实际业务情景下的计算需求和计算速度要求。而基于分布式计算的数据挖掘算法研究,有助于在互联网数据量日益增多的今天发挥其在计算能力和处理速度的优势。这就要求人们转换传统单机计算数据挖掘算法的设计思想,实现分布式计算的数据挖掘算法。为了实现这一要求,本文提出基于分布式计算的数据挖掘研究方法。本方法基于单机数据挖掘算法原理,对目前最为广泛使用的分类算法——朴素贝叶斯分类算法、SVM分类算法,关联规则——FP-Growth和聚类算法——Canopy算法、k-Means聚类算法来进行基于分布式计算的数据挖掘算法研究和实现,并将基于分布式朴素贝叶斯算法和FP-Growth关联规则的文本分类以及基于分布式环境的改进k-Means算法的聚类分析应用在微博热点博文分析系统中。本文的主要工作如下:1.研究数据挖掘算法的基本理论和分布式计算的基本设计思想,提出了本文的重点研究内容——基于分布式计算的数据挖掘算法,即分布式环境中的分类算法——朴素贝叶斯算法、SVM算法,关联规则——FP-Growth 以及聚类算法 k-Means、Canopy、改进 k-Means 聚类算法;2.基于上一步提出的研究内容,本文对分布式环境中的数据挖掘算法进行研究。本方法,首先,在充分研究数据挖掘算法的基础上,结合分布式环境Hadoop中的MapReduce编程模型的特点来实现基于分布式环境的朴素贝叶斯分类算法、SVM分类算法、关联规则FP-Growth、Canopy聚类算法、k-Means聚类算法以及改进的k-Means聚类算法。基于对分布式计算数据挖掘算法的实现,针对不同分布式数据挖掘算法对经典数据集进行实验对比,分析基于分布式计算的数据挖掘算法的处理效率等方面指标;3.基于上述分布式环境中的数据挖掘方法的实验结果和分析,本文设计并实现了微博热点博文分析系统。实验表明,本方法能够满足微博热点博文分析系统各模块的基本功能,并验证了分布式数据挖掘算法相对于单机计算的性能优势。微博热点博文分析系统首先结合分布式环境中的朴素贝叶斯算法、分类规则算法来对微博博文数据进行主题分类,然后结合本文提出的分布式环境中数据挖掘算法的改进k-Means算法来对基于主题的微博数据进行微博热点博文分析,最后根据博文分析结果对各项评价指标进行分析。
[Abstract]:With the improvement of Internet access convenience, the online activities of the Internet have become an increasingly popular emerging field. With the rapid development of the Internet, the application of the Internet has been expanded. As a result, the Internet industry has also produced a large number of user data. The traditional single computer computing method has been gradually difficult to meet the actual business situation of the Internet industry computing requirements and computing speed requirements. The research of data mining algorithm based on distributed computing is helpful to give full play to its advantage in computing power and processing speed in today's Internet data volume increasing day by day. This requires people to change the design idea of traditional single-machine computing data mining algorithm and realize the distributed computing data mining algorithm. In order to meet this requirement, this paper proposes a research method of data mining based on distributed computing. This method is based on the principle of single machine data mining algorithm. At present, the most widely used classification algorithms are naive Bayes classification algorithm, SVM classification algorithm, association rule FP-Growth and clustering algorithm Canopy algorithm. K-Means clustering algorithm is used to research and implement the data mining algorithm based on distributed computing. The text classification based on distributed naive Bayes algorithm and FP-Growth association rules and the clustering analysis of improved k-Means algorithm based on distributed environment are applied to Weibo hot spot blog analysis system. The main work of this paper is as follows: 1. The basic theory of data mining algorithm and the basic design idea of distributed computing are studied. That is, naive Bayesian algorithm, SVM algorithm, association rule FP-Growth and k-Means-Canopyalgorithm, which are the classification algorithms in distributed environment, improve the k-Means clustering algorithm. 2. Based on the previous research content, this paper studies the data mining algorithm in distributed environment. In this method, first of all, based on the research of data mining algorithm, combining the characteristics of MapReduce programming model in distributed environment Hadoop, the naive Bayes classification algorithm, SVM classification algorithm and association rule FP-Growth, are implemented based on distributed environment. Canopy clustering algorithm, k-Means clustering algorithm and improved k-Means clustering algorithm. Based on the implementation of distributed computing data mining algorithm, this paper compares the classical data sets with different distributed data mining algorithms, and analyzes the processing efficiency of data mining algorithms based on distributed computing. 3. Based on the experimental results and analysis of the data mining methods in the distributed environment mentioned above, this paper designs and implements Weibo hot spot blog analysis system. Experiments show that this method can meet the basic functions of Weibo hot spot blog analysis system and verify the performance of distributed data mining algorithm compared with single computer. Weibo Hot spot blog Analysis system first combines naive Bayes algorithm and classification rule algorithm in distributed environment to classify the topic of Weibo blog data. Then combine the improved k-Means algorithm of data mining algorithm in distributed environment to analyze the Weibo data based on topic, then analyze the hot spot blog on the basis of the analysis result of blog. Finally, the evaluation index is analyzed according to the result of the analysis.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 陈文锋;;基于统计信息的数据挖掘算法[J];统计与决策;2008年15期

2 王清毅,张波,蔡庆生;目前数据挖掘算法的评价[J];小型微型计算机系统;2000年01期

3 胡浩纹,魏军,胡涛;模糊数据挖掘算法在人力资源管理中的应用[J];计算机与数字工程;2002年05期

4 万国华,陈宇晓;数据挖掘算法及其在股市技术分析中的应用[J];计算机应用;2004年11期

5 文俊浩,胡显芝,何光辉,徐玲;小波在数据挖掘算法中的运用[J];重庆大学学报(自然科学版);2004年12期

6 邹志文,朱金伟;数据挖掘算法研究与综述[J];计算机工程与设计;2005年09期

7 赵泽茂,何坤金,胡友进;基于距离的异常数据挖掘算法及其应用[J];计算机应用与软件;2005年09期

8 赵晨,诸静;过程控制中的一种数据挖掘算法[J];武汉大学学报(工学版);2005年05期

9 王振华,柴玉梅;基于决策树的分布式数据挖掘算法研究[J];河南科技;2005年02期

10 胡作霆;董兰芳;王洵;;图的数据挖掘算法研究[J];计算机工程;2006年03期

相关会议论文 前10条

1 贺炜;邢春晓;潘泉;;因果不完备条件下的数据挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

2 刘玲;张兴会;;基于神经网络的数据挖掘算法研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年

3 陈曦;曾凡锋;;数据挖掘算法在风险评估中的应用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

4 郭新宇;梁循;;大型数据库中数据挖掘算法SLIQ的研究及仿真[A];2004年中国管理科学学术会议论文集[C];2004年

5 张沫;栾媛媛;秦培玉;罗丹;;基于聚类算法的多维客户行为细分模型研究与实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年

6 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

7 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年

8 祖巧红;陈定方;胡吉全;;客户分析中的数据挖掘算法比较研究[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年

9 李怡凌;马亨冰;;一种基于本体的关联规则挖掘算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

10 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年

相关重要报纸文章 前1条

1 ;选择合适的数据挖掘算法[N];计算机世界;2007年

相关博士学位论文 前4条

1 陈云开;基于粗糙集和聚类的数据挖掘算法及其在反洗钱中的应用研究[D];华中科技大学;2007年

2 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年

3 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年

4 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年

相关硕士学位论文 前10条

1 祁丹;基于分布式计算的数据挖掘算法研究与实现[D];北京邮电大学;2016年

2 谢亚鑫;基于Hadoop的数据挖掘算法的研究[D];华北电力大学;2015年

3 彭军;基于新型异构计算平台的数据挖掘算法研究与实现[D];电子科技大学;2015年

4 杨维;基于Hadoop的健康物联网数据挖掘算法研究与实现[D];东北大学;2013年

5 张永芳;基于Hadoop平台的并行数据挖掘算法研究[D];安徽理工大学;2016年

6 李围成;基于FP-树的时空数据挖掘算法研究[D];河南工业大学;2016年

7 官凯;基于MapReduce的图挖掘研究[D];贵州师范大学;2016年

8 陈名辉;基于YARN和Spark框架的数据挖掘算法并行研究[D];湖南师范大学;2016年

9 刘少龙;面向大数据的高效数据挖掘算法研究[D];华北电力大学(北京);2016年

10 罗俊;数据挖掘算法的并行化研究及其应用[D];青岛大学;2016年



本文编号:2385101

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2385101.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9e058***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com