不确定数据和代价敏感学习研究

发布时间:2018-01-15 10:04

  本文关键词:不确定数据和代价敏感学习研究 出处:《西北农林科技大学》2017年博士论文 论文类型:学位论文


  更多相关文章: 不确定数据 代价敏感 数据流分类 贝叶斯 决策树 单批测试


【摘要】:传统的数据分类算法需要处理的数据是确定且精确的,然而在现实世界中,由于隐私保护,不精确测量,重复抽样,值缺失等原因,数据普遍存在不确定性。直接使用传统分类算法对不确定数据进行分类效果很差,不能满足应用要求,这使得专门针对不确定数据挖掘技术的研究十分必要。代价敏感学习是一个具有重要意义的研究方向,其充分考虑了各类错误分类的代价差异,通过引入代价概念,使得分类器以最小化代价为目标,有效避免了传统分类器仅关注分类准确率的不足。在很多领域,代价敏感学习模型更符合现实应用需求。本课题以不确定数据和代价敏感学习为研究对象,围绕着如何对不确定数据流进行分类分析,如何提出性能更优的代价敏感算法以及如何对不确定数据进行代价敏感学习等几方面展开研究。主要成果包括:(1)提出了一种针对属性不确定的数据流进行分类学习的集成分类算法EDTU。首先,文中基于不确定决策树算法DTU构建了基分类器。然后,为解决基分类器算法效率不高,不能实时的处理数据流的问题,采用了快速构建决策树的方法来改造基分类器。最后,通过动态集成的方式,构建了一个分类器集合,通过在相似样本上的分类准确率来调整分类器权重,并完成分类器的淘汰与更新。实验结果表明,算法能有效的处理不确定数据流的分类问题,并且在不同参数下表现稳定。(2)提出了一种结合贝叶斯和决策树来进行代价敏感学习的算法CS-NBT。首先,文中定义了误分类代价期望,设计了最小化误分类代价期望的属性选择策略,并根据该策略构建了以最小化误分类代价期望为目的的决策树。然后,在所构建决策树的每个叶子节点上学习贝叶斯分类器,通过结合类别概率与代价矩阵,将选择类别概率最大的问题转换为选择类别代价最小的问题,从而使叶子节点中的贝叶斯分类器代价敏感化。相比起现有基于决策树或贝叶斯的代价敏感学习算法,CS-NBT结合了决策树和贝叶斯的优点,利用了代价敏感决策树的结构能够有效的分裂数据,同时,也通过叶子节点处的贝叶斯分类器利用了那些没有出现在树的路径上的属性所携带的信息。实验结果表明,CS-NBT算法展现了优秀的性能,与CSTree、MetaCost和NBT相比,CS-NBT性能稳定,有效的降低了总代价,并且在不同的参数设定下,算法表现良好。(3)提出了弱化贝叶斯假设的代价敏感学习算法CS_ANDE。首先,结合贝叶斯定理和代价矩阵定义了代价期望,将分类中的最大化可能类别问题转化为最小化期望代价问题。其次,通过假设某些特殊属性不独立,而其它属性相互独立,形成了一个较弱的条件独立假设。然后为减少特定的特殊属性带来的偶然性,将属性集中的每个属性都选取为一次特殊属性并求这些值的均值。最后通过使用MetaCost框架,学习对应的代价敏感分类器。CS_AODE与CS_A2DE的不同在于,在CS_AODE只假设一个属性是特殊属性,而在CS_A2DE中则假设两个属性是特殊属性。实验结果表明CS_AODE和CS_A2DE算法在处理代价敏感学习时展现了优秀的性能,有效的降低了代价,并且在不同参数设定下,算法表现良好。(4)提出了基于决策树的代价敏感不确定分类算法CS-DTU。首先,基于概率势的概念定义了代价增益,通过代价增益来表示属性分裂前后代价的改变。其次,设计了使总代价最小化的属性选择方式,并以该方式建立了代价敏感决策树。然后,采用了不确定决策树中的分类方法来分类新样本。实验结果表明,CS-DTU算法能有效的处理不确定数据的代价敏感分类问题,并且在不确定率变化和代价矩阵变化时表现稳定。(5)提出了基于贝叶斯的代价敏感不确定分类算法CS-UNB。首先,通过结合类别概率与代价矩阵,定义误分类代价期望。然后通过选择不同属性进行测试导致的误分类代价期望的变化,依次选择需要进行测试的属性,其中,不确定信息使用概率势的方法进行处理,最后给出相应算法的详细步骤。然后,对CS-UNB进行扩展,提出了相应的单批测算法SBT-CSUNB。采用贪心算法的思想,找出所有对总代价下降正相关的属性,作为需要进行测试的属性集合。实验结果表明,CS-UNB算法和SBT-CSUNB算法都很强的从不确定数据学习代价敏感分类器的能力,在不确定率和代价矩阵变化时,算法都表现良好,且SBT-CSUNB算法展现了更好的稳定性。
[Abstract]:Traditional classification algorithms of data need to be processed is determined and accurate, but in the real world, because of privacy protection, inaccurate measurement, repeated sampling, missing values and other reasons, the data uncertainty prevails. The direct use of uncertain dataclassification effect of poor traditional classification algorithms can not meet the application requirements, this the study on uncertain data mining technology is very necessary. The cost sensitive learning is an important research direction, which fully considers the error classification of various price differences, by introducing the concept of price, makes the classifier to minimize the cost as the goal, effectively avoids the shortcomings of traditional classifiers only focus on classification accuracy. In many areas, cost sensitive learning model more realistic application requirements. This subject to uncertain data and cost sensitive learning as the research object, around How to determine the classification of data stream analysis, how the proposed cost sensitive algorithm has a better performance and how to uncertain data for cost sensitive learning and other aspects of research. The main results are as follows: (1) an attribute uncertain data stream EDTU. ensemble classification algorithm of classification learning first, not to determine the DTU decision tree algorithm is constructed based on the base classifier. Then, in order to solve the base classifier algorithm efficiency is not high, not real-time data processing flow, using a fast method of constructing decision tree to transform based classifier. Finally, through the way of dynamic integration and construct a classifier by the accuracy rate of classification in similar samples on classifier to adjust the weights, and complete elimination and update the classifier. The experimental results show that the algorithm can effectively deal with uncertain data stream classification problem, And stable performance under different parameters. (2) proposed a cost sensitive learning to combine Bias and the decision tree algorithm CS-NBT. first, this paper defined the expected misclassification cost, design attribute selection strategy to minimize the expected misclassification cost, and according to the strategy is constructed to minimize the expected misclassification cost for the purpose of the decision tree. Then, Bias learning classifier in each leaf node of the decision tree, by combining the categories of probability and cost matrix, selecting the maximum probability of category converted to select categories of minimum cost problem, so that the cost of Bias classifier sensitization leaf. Compared with the existing cost sensitive learning decision tree algorithm based on Bias or CS-NBT, combines the advantages of the decision tree and Bias, using the structure of cost sensitive decision tree can effectively split the number of At the same time, also according to, through the Bias classifier leaf node use information attributes that do not appear in the tree on the path to carry. The experimental results show that the CS-NBT algorithm shows excellent performance, and CSTree, compared to MetaCost and NBT, CS-NBT stable performance, effectively reduce the total cost, and in different settings the parameters, algorithm has good performance. (3) proposed CS_ANDE. cost sensitive learning algorithm to weaken the Bias hypothesis first, combined with the Bias theorem and the cost matrix defines price expectations, will maximize the classification of the possible categories problem into the minimization of the expected cost. Secondly, by assuming that some special properties are not independent, and other attributes are independent of each other, forming a weak conditional independence assumption. Then for the chance to reduce special specific attributes, each attribute set which are selected for a time For these special attributes and values. Finally, by using the MetaCost framework, learning the corresponding cost sensitive classifier.CS_AODE and CS_A2DE is different in CS_AODE only assume that a property is the special attribute, while CS_A2DE assumes that two attributes are special attributes. Experimental results show that the CS_AODE and CS_A2DE algorithm showed good performance in cost sensitive learning, effectively reduce the cost, and in different parameter setting, the algorithm performs well. (4) this paper proposes a decision tree based on cost sensitive uncertain classification algorithm based on probability CS-DTU. first, the concept of potential defines the cost gain, said the price change before and after the split attribute through cost gain to make the design. Secondly, the total cost minimization attribute selection method, and the way to establish the cost sensitive decision tree. Then, the uncertainty in decision tree classification Method to classify new samples. The experimental results show that the CS-DTU algorithm can effectively deal with the uncertainty of cost sensitive classification data, and stable performance in the uncertain rate and cost matrix changes. (5) proposed the cost sensitive Bayesian classification algorithm based on uncertain CS-UNB. first, through a combination of class probability and cost matrix. The definition of expected misclassification cost. Then by choosing different attributes of the misclassification cost test leads to expectations, select properties, the need for testing the method for uncertain information using probability potential for processing, the detailed steps and finally gives the corresponding algorithm. Then, the extension of CS-UNB, put forward the corresponding single batch the measuring method of SBT-CSUNB. using the greedy algorithm to find out all of the total cost, decrease attribute correlation, as the need for testing the attribute set. The experimental results table Ming, CS-UNB algorithm and SBT-CSUNB algorithm are very strong, and learn the ability of cost sensitive classifier from uncertain data. The algorithm performs well when the uncertainty rate and cost matrix change, and the SBT-CSUNB algorithm shows better stability.

【学位授予单位】:西北农林科技大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 申德荣;于戈;寇月;聂铁铮;;可能世界内数值型不确定数据匹配模型[J];计算机应用研究;2008年09期

2 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期

3 周逊;李建中;石胜飞;;不确定数据上两种查询的分布式聚集算法[J];计算机研究与发展;2010年05期

4 徐雪松;;时间序列不确定数据流中异常数据检测方法[J];电子设计工程;2011年19期

5 徐雪松;李玲娟;郭立玮;;基于优化策略的不确定数据流预测方法[J];计算机工程;2011年21期

6 徐雪松;沈红红;陶帆;胡晓璐;崔伟;;基于小波分析的不确定数据流异常数据检测[J];软件导刊;2011年11期

7 钱江波;王志杰;陈华辉;王海斌;;不确定数据流自适应并行连接算法及应用[J];电信科学;2012年02期

8 向剑平;乔少杰;胡剑;;基于不确定数据理论的道路相关度度量方法[J];计算机工程与设计;2012年06期

9 曹振丽;孙瑞志;李勐;;面向不确定数据的农产品追溯方法[J];农业机械学报;2013年07期

10 蒋涛;高云君;张彬;周傲英;乐光学;;不确定数据查询处理[J];电子学报;2013年05期

相关会议论文 前7条

1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

2 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

3 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

5 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

相关博士学位论文 前10条

1 陈静玉;面向不确定数据流的聚类和模式挖掘技术研究[D];西安电子科技大学;2014年

2 马荔瑶;信任函数建模的认知不确定性数据分析与学习[D];中国科学技术大学;2016年

3 曹科研;不确定数据的聚类分析与异常点检测算法[D];东北大学;2014年

4 李佳佳;不确定数据的概率近邻查询处理技术研究[D];东北大学;2014年

5 徐传飞;面向多维不确定数据的若干查询处理关键技术的研究[D];东北大学;2013年

6 罗昌银;位置及文本相关查询处理及验证策略研究[D];华中科技大学;2015年

7 张星;不确定数据和代价敏感学习研究[D];西北农林科技大学;2017年

8 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年

9 梁春泉;不确定数据流分类算法研究[D];西北农林科技大学;2014年

10 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年

相关硕士学位论文 前10条

1 孙凤姣;概率XML数据文档的分发技术研究[D];大连海事大学;2015年

2 李雨明;不确定数据的挖掘算法研究[D];上海交通大学;2015年

3 曹庆傲;不确定性数据Top-k查询算法与实现[D];贵州大学;2015年

4 武婷婷;基于MapReduce的不确定查询处理技术的研究与实现[D];东北大学;2013年

5 李红;不确定数据流查询处理算法的研究[D];黑龙江大学;2015年

6 甘果;基于不确定数据的范围查询算法的研究与实现[D];东北大学;2014年

7 张昕;基于分布式极限学习机的不确定数据流分类技术的研究与实现[D];东北大学;2014年

8 刘斌;基于聚集约束条件的不确定数据清洗与Top-k查询[D];国防科学技术大学;2013年

9 林佳丽;基于密度的不确定数据离群点检测研究[D];重庆大学;2015年

10 郎泓钰;面向不确定数据的最近邻分类方法研究[D];辽宁师范大学;2015年



本文编号:1427856

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1427856.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户60c51***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com