当前位置:主页 > 科技论文 > 软件论文 >

数据挖掘中分类算法的比较分析

发布时间:2018-04-08 11:01

  本文选题:数据挖掘 切入点:分类 出处:《天津财经大学》2016年硕士论文


【摘要】:数据的快速大量增长以及广泛可用使我们步入了真正的数据时代。如何从海量数据中挖掘出有价值的信息已成为人们关注的重点,尤其是数据挖掘中的分类技术研究。从商业领域到工程实践领域再到生物医学领域,只要是涉及将地区、商品、人群等目标变量按照不同属性区分开来的问题,都可以使用分类技术解决。分类算法多种多样,其中常用算法主要有朴素贝叶斯方法、决策树、支持向量机、集成学习等等。然而,没有任何一种算法能够适用于所有实际问题,每种分类算法均有其各自不同特点。人们开始不仅仅满足于通过分类技术对数据集进行分析建模来为决策者提供更好的决策依据,同时更加希望能够提高解决分类问题的效率,以创造更多的价值。因此,为高效解决好分类问题,找到不同分类算法的适用环境及其优势与不足,甚至实现分类模型的自动筛选功能以提高解决分类问题的效率已成为重要需求。但国内很少有学者对原有算法的应用进行比较,国外学者Michieet曾对神经网络、统计分类和机器学习三种分类技术进行了比较,并将其应用到了实际工业问题当中。而本文将更具体的对朴素贝叶斯、决策树C5.0、支持向量机三种分类算法进行比较。在对以上算法原理与分类结果比较准则进行基础介绍之后,分别选用了涉及社会、商业、生物、经济领域的四个具有不同实例数、缺失值个数、用于预测的属性个数、目标类别个数的具有一定代表性的实验案例,然后应用以上三种典型分类算法分别建立分类模型,最后在分类结果准确率、分类算法稳定性、分类算法所得结果的可解释性、分类器运行速度、处理含有缺失值数据集的效果等方面分别对三种算法进行比较与分析,得出了以上三种算法应用于不同特点数据集时的优点与不足。最终通过实验结果发现,支持向量机分类算法在对历史数据的依赖性、分类结果准确率、算法稳定性方面,较其他两种分类算法均具有明显的优势。决策树算法在运行速度、所得结果的可解释性方面,较其他两种算法均具有明显的优势。朴素贝叶斯算法在处理含有缺失值数据集时效果均好于其他两个算法。因此,当实际问题中所能获取的样本量相对较少时,采用支持向量机算法的效果最佳,而面对海量数据,决策树算法最具效率,当所收集到的数据集包含大量缺失值时,朴素贝叶斯算法的效果更好。
[Abstract]:The rapid growth and wide availability of data has ushered in a real data age.How to mine valuable information from massive data has become the focus of attention, especially the research of classification technology in data mining.From the commercial field to the engineering practice field to the biomedical field, as long as the target variables, such as region, commodity, crowd and so on, are distinguished according to different attributes, the classification technology can be used to solve the problem.There are many kinds of classification algorithms, such as naive Bayes method, decision tree, support vector machine, ensemble learning and so on.However, none of the algorithms can be applied to all practical problems, and each classification algorithm has its own characteristics.People are not only satisfied with the analysis and modeling of data sets through classification technology to provide better decision basis for decision makers, but also hope to improve the efficiency of solving classification problems and create more value.Therefore, in order to efficiently solve the classification problem, find out the applicable environment, advantages and disadvantages of different classification algorithms, and even realize the automatic screening function of classification model to improve the efficiency of classification problems has become an important requirement.However, few domestic scholars have compared the application of the original algorithm. Michieet, a foreign scholar, has compared the neural network, statistical classification and machine learning techniques, and applied them to practical industrial problems.In this paper, three classification algorithms, namely naive Bayes, decision tree C5.0 and support vector machine, are compared in detail.After the basic introduction of the above algorithm principle and the comparison criterion of classification results, the four fields of social, commercial, biological and economic are selected respectively, which have different instance numbers, missing values, and the number of attributes used for prediction.The experimental cases of the number of target categories are representative, and then the classification models are established by using the above three typical classification algorithms. Finally, the accuracy of the classification results, the stability of the classification algorithm, the interpretability of the results obtained by the classification algorithms are discussed.This paper compares and analyzes the three algorithms in terms of the running speed of classifier and the effect of dealing with data sets with missing values. The advantages and disadvantages of the above three algorithms when applied to different characteristic data sets are obtained.Finally, the experimental results show that the SVM classification algorithm has obvious advantages over the other two classification algorithms in terms of dependence on historical data, accuracy of classification results and stability of the algorithm.Decision tree algorithm has obvious advantages over other two algorithms in terms of running speed and interpretability of the results obtained.The naive Bayes algorithm is better than the other two algorithms in dealing with data sets with missing values.Therefore, when the sample size is relatively small in practical problems, the support vector machine algorithm is the best, and the decision tree algorithm is the most efficient in the face of massive data, when the collected data set contains a large number of missing values.The effect of naive Bayes algorithm is better.
【学位授予单位】:天津财经大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 黄源,张福炎;数据挖掘及其技术实现[J];计算机应用与软件;2001年12期

2 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期

3 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期

4 刘明晶;数据挖掘[J];华南金融电脑;2001年04期

5 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期

6 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期

7 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期

8 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期

9 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期

10 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期

相关会议论文 前10条

1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年

7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年

9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

相关重要报纸文章 前10条

1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年

2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年

7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年

9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年

10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年

相关博士学位论文 前10条

1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年

2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年

3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年

4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年

6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年

7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年

8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年

9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年

10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年

相关硕士学位论文 前10条

1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年

2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年

3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年

4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年

5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年

6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年

7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年

8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年

9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年

10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年



本文编号:1721321

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1721321.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5c41c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com