朴素贝叶斯分类算法的改进研究Research onNaive Bayesian ClassifierAlgorithm
朴素贝叶斯分类算法的改进研究Research onNaive Bayesian ClassifierAlgorithm
摘要
NBC模型具有计算简单,分类性能优越等特点,而受到各类科学工作者的青睐,成为目前应用最广泛的分类器之一关于其应用和研究也成为一个热点。然而,在实际应用中,条件独立性的假设难以得到满足,削弱NBC模型的分类效果。本文针对不同的数据类型分别从特征变量的提取和特征变量的筛选的角度提出了朴素贝叶斯分类器的两种改进模型:基于费希尔判别的朴素贝叶斯分类模型和基于R型聚类的朴素贝叶斯分类模型。
基于费希尔判别的朴素贝叶斯分类模型FI-NBC,利用费希尔判别提取独立特征的性质,对原来的属性集做费希尔判别,萃取判别式,构建近似满足独立性假设的新属性集,使用NBC模型对新的属性集进行分类。通过UCI数据集上的对照实验,结果表明:FI-NBC分类模型相对于NBC模型而言具有较好的分类效果。
基于相关性测度和R型聚类的朴素贝叶斯分类模型RC-NBC,首先利用本文定义的相关性测度作为属性间的相似系数对R型聚类做了改进,利用改进的R型聚类方法将原属性集划分为若干子集,从每个子集中挑选典型属性构建新的属性集,用NBC模型对新的数据集进行分类,,实验结果表明提高了分类准确率。
关键词:数据挖掘;朴素贝叶斯分类;费希尔判别;R型聚类;互信息
[Abstract]
NaïveBayesian classifier which based on the assumption of conditionattributesindependent of each other,with simple structure,high classification accuracy , little consumption of running time and storage space and solid theoretical foundation of mathematics, isoneof the efficient classifiers.Therefore,the research and application of naive Bayesianclassifier is popular now.However,in many practical cases, the performance of naïvebayesianclassifier is affected for the violation of the assumption of conditional independence.Two improvedclassifiers,naive bayesian classifierbased on fisher discriminant analysis and naive bayesianclassifier based on mutual information and R-type clustering analyses are proposed from the perspective of feature selection for data sets of different types.
NaïveBayesianclassifierbasedon fisher discriminant analysis ,FI-NBC,constructs newattribute set from the original propertysetusing fisher discriminantanalysis.Naivebayesianclassifier is built on the new attribute set which meets the assumption of conditional independence approximately.Theexperimental results on UCI data sets show that the performance of FI-NBC is better than naive bayesian classifier on the feasible data set.
Naïvebayesian classifier based on mutual information and R-typeclustering analyses,RC-NBC, changes theR-typeclustering by measures the correlation of propertiesthroughmutual information. Theorigin attribute set is classified into some independent attribute subsets by th changed R-typeclustering.Select one typical attributes from each sub-construct to form a new set of properties,and then builtNaive bayesianclassifieron the new attribute set.The comparative experiments on UCI data sets show that the performance of RC-NBC improves significantly compared to naive bayesian classifier .
[Keyword]data mining ,naïvebayesian classifier,fisher discriminant analysis, R-typeclustering,mutual information
目录
第一章绪论 3
1.1论文的研究背景 3
1.2 研究现状 8
1.3论文的研究内容与组织结构 10
第二章朴素贝叶斯分类模型 11
2.1贝叶斯理论概况 11
2.2朴素贝叶斯分类模型 13
本章小结 17
第三章基于FISHER判别的贝叶斯分类模型 18
3.1 FISHER判别 18
3.2 FI-NBC模型 22
3.3 实验及结果分析 24
本章小结 28
第四章基于R型聚类分析改进的朴素贝叶斯分类模型 29
4.1 R型聚类分析 29
4.2 基于属性聚类的改进的朴素贝叶斯分类算法 34
4.3 基于R型聚类和互信息改进的贝叶斯分类方法 34
4.4 实验及结果分析 37
本章小结 39
第五章总结与展望 40
参考文献: 42
致谢 44
第一章绪论
1.1论文的研究背景
1.1.1数据挖掘
计算科学与信息技术经过半个多世纪的迅猛发展,推动了社会的进步。随着数据搜集、数据处理、及数据库管理技术的发展,人们越来越能够高效的收集、利用信息。在全国各地建立起来了大量的数据库广泛应用于商务管理、科学探索、生产控制、工业设计,工程开发、市场营销等各个方面。存储在人们计算机和数据库中的信息在以指数级数增长。数据是知识的源泉。但是,拥有数据并不等同于拥有知识。面对人们被海量数据淹没却渴求于知识的困境,一个新的挑战被提了出来:、怎样才能既不被繁芜的海量信息所吞没,又能从中有效地发现所需要的,于己有用的知识模式,使数据真正为转化为知识财富呢?,数据挖掘技术就在这样的背景下应运而生了。
第五章总结与展望
本文主要研究了以统计学中贝叶斯定理为理论基础的NBC模型,考虑到NBC模型所要求的类条件独立性假设在实际应用中难以得到满足的情况,分别从特征提取和特征选择提出了两种朴素贝叶斯方法的改进算法:
基于费希尔判别的朴素贝叶斯分类模型FI-NBC,利用费希尔判别提取独立特征的性质,对原属性集进行线性投影降维,简化数据集的同时,剔除了因冗余导致的属性间的相关性,并且投影方向正交得到的新属性独立性增强,可以近似的逼近朴素贝叶斯方法要求的条件独立的假设。
基于相关性测度和R型聚类的朴素贝叶斯分类模型RC-NBC,首先引入了相关性测度作为属性间的相似系数对R型聚类做了改进,利用改进的R型聚类方法将原属性集划分为若干子集,从每个子集中挑选典型属性构建新的属性集构建朴素NBC模型,剔除了因冗余导致的相关性影响因素同时达到了降维的目。
并且通过使用UCI上数据集做对比试验,验证了能够提高朴NBC模型的分类准确率。
然而,由于作者学识有限,本文的研究和讨论还存在许多不足之处,有不少需要进一步深入探讨的问题。主要有以下几个方面:
第一:本文引进了相关性测度的概念度量两个属性间的相关程度大小,在计算属性间的相关性测度时计算量非常大,当属性变量特别多时会产生组合爆炸。例如,当有30个属性变量,每个变量有4个取值,类别变量时二值变量,那么它需要计算大约个组合值。今后,可对提高特征提取效率的算法方面进行研究。
第二,本文在进行特征选择时,是从每个属性簇中挑选一个作为典型属性构建新的属性集,可能会导致样本所包含信息量的损失,今后可以考虑属性簇中属性的组合方法。
第三:在实验的数据选择上,我们没有考虑缺失数据,而且变量都属于同种性质的,今后可以对有缺失数据和混合变量的实验样本进行深入研究。
参考文献:
[1]陈安, 陈宁, 周龙骧等. 数据挖掘技术及应用[M]. 北京: 科学出版社, 2006: 111-112
[2]Han J. W, Kamber M. Data Mining Concepts and Techniques[M]. San Francisco: Morgan Kaufmann Publishers, 2001: 3-6
[3] Kononenko I.Semi-native Bayesian classifier[A].In:Proceedings of the 6th European Working Session on Learning.New York:Springer-Verlag , 1991. 206-219.
[4]Langley P, Sage S. Induction of Selective Bayesian Classifiers [A]. In: Proceedings of the Tenth Conference on Uncertainty in Artificial Intelligence[C]. Seattle, WA: Morgan Kaufmann Publishers, 1994. 339-406.
[5]沈黎,周丽. 基于属性聚类的贝叶斯分类算法.河南教育学院学报(自然科学版).2013.22.22-24
[6] 张静,王建民,何华灿.基于属性相关性的属性约简新方法[J]. 计算机工程与应用. 2005. 28:57- 59.
[7] Harry Zhang, Shengli Sheng. Learning Weighted NaiveBayeswith Accurate Ranking[C]. IEEE International Conference on Data Mining - ICDM , pp. 567-570, 2004
[8] 程克非,张聪. 基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006, 23: 92-94.
[9] Geoffrey I. Webb, Michael J. Pazzani. Adjusted Probability Naive Bayesian Induction[C].Australian Joint Conference on Artificial Intelligence - AUS-AI , pp. 285-295, 1998
[10] Hall M. A decision tree-based attribute weighting filter for Naive Bayes[J].Knowledge- Based Systems, 2007.20 : 120- 126.
[11] Pazzani M J. Constructive Induction of Cartesian Product Attributes[A]. In: Proceedings of the Conference on Information, Statistics and Induction in Science [C]. Singapore: World Scientific, 1996. 66-77.
[12] 王志海,张播.一种基于粗糙集合理论的树扩张型贝叶斯网络分类器川.复旦学报(自然科学版).2004.43(5):725一728
[13] 闭乐鹏,徐伟,宋瀚涛. 基于一类 SVM 的贝叶斯分类算法[J]. 北京理工大学学报,2006. 26:143-146.
[14]李海龙,王钲旋,王利民,苑淼淼.基于主成分分析提升贝叶斯.仪器仪表学报.2004.25:384-386
[15]Kohavi R. Scaling up the Accuracy of Native-Bayes Classifiers: A Decision-Tree Hybrid[A]. In: Simoudis E, Han J W, Fayyad U M. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining[C]. Menlo Park, CA: AAAI Press, 1996. 202-207.
[16] 邓维斌,黄蜀江,周玉敏. 基于条件信息熵的自主式朴素贝叶斯分类算法[J], 计算机应用, 2007. 27: 888-891.
[17] Ting K M, Zheng Z. Improving the performance of boosting for Naive Bayesian classification. NingZhong, Li zhu Zhou eds. Proc of the 3rdPacific一Asia Conf on Knowledge Discovery and Data Mining Berlin Germany: Springer -Verlag, 1999. 296-305.
[18] 张璠. 多种策略改进朴素贝叶斯分类器[J]. 微机发展, 2005. 15:125-127.
[19]茆诗松,程依明,濮晓龙。概率论与数理统计教程。北京:高等教育出版社。2004;38-45
[20] 钟路, 潘昊等. 模式识别[M]. 武汉: 武汉大学出版社, 2006.
[21] 杜会锋. 基于 Copula 理论的两种分类算法研究[D]. 重庆:重庆大学统计系,2008.
[22] 李雄飞, 李军. 数据挖掘与知识发现[M]. 北京: 高等教育出版社, 2003.
[23] Mia K, Stern, Joseph E. Beverly Park Wolf. Native Bayes Classifiers for User Modeling.
[24] Pedro Domingos, Michael Pazzzani. On the Optimality of the Simple Bayesian Classifier under Zero-One Loss[J]. Machine Learning, 1997. 29: 103-130.
[25]王学民.应用多元分析.上海.上海财经大学出版社.2004.20-21
[26]于秀林.任雪松.多远统计分析.北京.中国统计出版社.1999.115-125
[27]WanSJ ,Wong5K.Ameasureforconeeptdissimilariryanditsapplicationsinmaehinelearning.ProeeedingsoftheInternationalConfereneeonComputingandInforma-
tion,1989,267~273.
[28]HAN J W, KAMBER M. 数据挖掘概念与技术[M]. 范明, 孟小峰, 译. 北京: 机械工业出版社, 2001.
[29] 陈路莹. 高维数据的聚类分析方法研究及其应用[D]. 厦门大学博士学位论文,2009.
[30]任若恩.王惠文.多元统计数据分析.北京:国防工业出版社.1997:56-84
[31] 余瑞康.聚类思想在贝叶斯算法中的应用[J].计算机工程与应用, 2006. 28: 159-163.
[32] 陈弋兰.基于模糊聚类的混合朴素贝叶斯分类模型[D].安徽建筑工业学院学报(自然科学版), 2009. 17: 88-91.
[33]Cover T.M, Thomas J.A. 信息论基础[M]. 2 版. 阮吉寿, 张华. 北京: 清华大学出版社, 2003: 7-13
[34]Pang-Ning Tan, Michael Steinbach,Vioin Kumar [M]范明,范宏建,译.北京.人民邮电出版社.2012
[35]张志涌.精通MATLAB R2011a.北京.北京航空航天大学出版社.2013
[36]谢中华.MATLAB统计分析与应用:40个案例分析.北京.北京航空航天大学出版社.2010
本文编号:19097
本文链接:https://www.wllwen.com/jingjilunwen/shijiejingjilunwen/19097.html