基于粗糙集理论的动态数据挖掘关键技术研究
本文选题:粗糙集理论 + 属性约简 ; 参考:《北京科技大学》2016年博士论文
【摘要】:随着信息技术的飞速发展,使得人们在采集数据、存储数据的方面能力得到了明显提高。在许多应用领域中都积累了大量数据,对这些数据进行分析并从中挖掘潜在有用的知识,已成为研究人员重点关注的研究内容。粗糙集理论作为一种处理模糊、不确定、不完备数据的有效处理工具,其优势是仅需要利用数据本身的信息,而不需要借助其他先验的知识和附加信息,就能对数据进行分析,从中发现隐在的、有价值的知识,揭示潜在的规律。目前粗糙集理论已在数据挖掘、机器学习、模式识别和知识发现等领域得到了广泛应用。在粗糙集理论中,属性约简和知识获取是研究人员研究的主要热点问题。属性约简是在保持属性区分能力不变的情况下,删除数据中无关或不重要的属性,而知识获取是在属性约简的基础上获取规则或知识。由于目前许多应用领域中的数据往往是动态的,当数据量增长到一定程度时,从原数据集中获取的属性约简和知识获取结果不再适用,需对数据进行处理和分析。若使用静态方法处理时,将导致算法的时间复杂度上升,且较难发现数据的变化规律。因此,围绕动态数据研究基于粗糙集理论的动态数据挖掘理论和方法具有重要的理论意义和应用前景。本文以粗糙集为工具,以数据挖掘为目的,针对动态决策表和动态不完备决策表的属性约简和知识获取模型与算法开展了较深入的分析和研究。本文的主要研究成果和创新概况如下:1)针对动态决策表,首先构造一种基于信息粒度的动态属性约简模型,详细分析了当决策表中出现新属性动态增加时,信息粒度的增量式计算方法:在此基础上,利用信息粒度作为启发信息设计了一种动态求解属性约简算法,该算法能有效利用原决策表的属性约简结果和信息粒度,有效地降低算法的计算复杂度,并使得约简结果具有较好的传承性;最后通过算例分析和实验比较进一步验证了算法的可行性和有效性。2)由于不完备决策表中存在缺失数据,经典的粗糙集模型难以适用,特别是不完备决策表中的数据发生动态变化时。为此,针对动态不完备决策表,构建基于相容关系的信息粒度模型;分析当不完备决策表中对象集动态增加时,信息粒度模型的增量式更新计算方法:同时结合原始不完备决策表的信息粒度和属性约简结果,提出了一种基于信息粒度的属性约简增量式更新方法,有效地提高了属性约简的计算效率。3)针对决策表下对象的动态变化,研究如何高效地从动态决策表中获取知识或规则。首先,分析完备决策表中单个的对象增加和删除时,基于正区域下知识的近似分类质量的动态更新机制,通过计算新等价类下对于决策类的置信度,对于满足阈值要求的规则进行动态增加和删除,在此基础上,提出了一种增量式知识获取更新方法。然后,为避免将多个对象的动态变化看成单个对象的累积变化,当决策表中存在大量对象动态增加和删除时,构建基于正区域下知识近似分类质量的动态更新机制,设计了一种决策表的动态知识获取算法。4)由于数据获取技术或者人为丢失数据等原因,经常导致数据经常出现不完备数据。针对不完备数据中对象的增加和删除情况,在近似分类质量模型下研究动态知识获取方法。首先,针对不完备数据中对象的增加,分析正区域的动态变化情况和近似分类质量的更新计算方法;然后,针对不完备数据中对象的删除,分析了正区域的动态变化情况和近似分类质量的更新计算方法;在此基础上,提出对象同时增加和删除时有效的动态知识获取方法,最后,通过实验结果验证提出方法的有效性。5)以基于粗糙集的属性度量为视角,提出了一种基于混合度量机制的属性评价方法,该方法从不同的信息粒度来分析属性的重要性,并在混合度量机制中根据数据分布特点引入了参数权重因子调节属性重要性;在此基础上,构造一种基于粗糙集属性度量机制的集成分类器。并通过实验结果和分析表明,提出的方法能有效地降低数据的属性维度,相比较于单个属性度量准则,分类器具有更好的分类性能。综上,本文针对数据中对象变化和属性变化所引起属性约简和知识获取的动态更新开展了较深入研究,较好地解决了许多静态算法无法描述数据的变化规律和算法计算效率不高等问题,从而更好地适应实际环境下数据的分析和挖掘。
[Abstract]:With the rapid development of information technology, the ability of people to collect data and store data has been greatly improved. In many applications, a lot of data have been accumulated. The analysis of these data and the mining of potential useful knowledge have become the focus of research for researchers. Rough set theory is a kind of research. It is an effective tool to deal with fuzzy, uncertain and incomplete data. The advantage is that it only needs to use the information of the data itself, without the need of other prior knowledge and additional information to analyze the data and discover the hidden, valuable knowledge and the potential law. In the rough set theory, attribute reduction and knowledge acquisition are the main focus of research in the rough set theory. The attribute reduction is to delete the unrelated or unimportant attributes in the data under the condition of keeping the ability to distinguish the attribute, and the knowledge acquisition is in the attribute contract. Because the data in many applications are often dynamic. When the amount of data is increased to a certain extent, the attribute reduction and the result of knowledge acquisition from the original data set are no longer applicable. It is necessary to process and analyze the data. If the static method is used, it will lead to the time of the algorithm. The complexity of the dynamic data mining theory and method based on the rough set theory has important theoretical significance and application prospect. This paper takes rough set as a tool and aims at data mining, aiming at the attribute of dynamic decision table and dynamic incomplete decision table. The main research results and innovations of this paper are as follows: 1) according to the dynamic decision table, a dynamic attribute reduction model based on information granularity is first constructed, and the incremental measure of information granularity is analyzed in detail when the new attributes are dynamically increased in the decision table. On this basis, a dynamic algorithm for attribute reduction is designed by using information granularity as heuristic information. The algorithm can effectively reduce the computational complexity of the algorithm and make the reduction result better. Finally, an example is made to analyze the reduction results. The experiment further validates the feasibility and effectiveness of the algorithm (.2). Because of the lack of data in the incomplete decision table, the classic rough set model is difficult to apply, especially when the data in the incomplete decision table changes dynamically. For this reason, the information granularity model based on the compatible relationship is constructed for the dynamic incomplete decision table. When the object set increases dynamically in the incomplete decision table, the incremental updating calculation method of the information granularity model is combined with the information granularity and attribute reduction results of the original incomplete decision table. A kind of incremental updating method based on the attribute reduction based on the information granularity is proposed, which effectively improves the calculation efficiency of the attribute reduction.3). The dynamic change of the object under the decision table is used to study how to efficiently obtain knowledge or rules from the dynamic decision table. First, the dynamic updating mechanism of the approximate classification quality based on the knowledge in the positive region is analyzed, and the confidence degree of the decision class under the new equivalence class is calculated. The rules of threshold requirements are dynamically added and deleted. On this basis, an incremental knowledge acquisition and updating method is proposed. Then, in order to avoid the dynamic changes of multiple objects as a cumulative change of a single object, when a large number of objects are dynamically increased and deleted in the decision table, the approximate classification quality of knowledge based on the positive region is constructed. Dynamic updating mechanism of quantity, a dynamic knowledge acquisition algorithm of decision table (.4) is designed. Because of data acquisition technology or artificial loss of data, the data often appear incomplete data. The method of dynamic knowledge acquisition is studied under the approximate classification quality model for the increase and deletion of objects in incomplete data. Firstly, according to the increase of the object in incomplete data, the dynamic change of the positive region and the updating calculation method of the approximate classification quality are analyzed. Then, according to the deletion of the objects in the incomplete data, the dynamic change of the positive region and the updating calculation method of the approximate classification quality are analyzed. On this basis, the object is raised at the same time. In the end, the validity of the method is verified by the experimental results. Finally, the effectiveness of the proposed method is verified by the experimental results.5). An attribute evaluation method based on the hybrid metric mechanism is proposed based on the attribute measurement based on the rough set. This method analyzes the importance of the attributes from different information granularity and is the root of the hybrid metric mechanism. According to the characteristics of the data distribution, the parameter weight factor is introduced to regulate the importance of attributes. On this basis, an integrated classifier based on the attribute metric mechanism of rough sets is constructed. The results and analysis of the experimental results show that the proposed method can effectively reduce the attribute dimension of the data. In conclusion, this paper makes a thorough research on the attribute reduction and the dynamic update of knowledge acquisition caused by the changes of objects and attributes in the data, which can better solve the problem that many static algorithms can not describe the change law of the data and the inefficient calculation efficiency of the algorithm, so that the data can be better adapted to the data in the actual environment. Analysis and mining.
【学位授予单位】:北京科技大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP18;TP311.13
【相似文献】
相关期刊论文 前10条
1 邱兆雷;范颖;王爱云;;粗糙集理论及进展[J];信息技术与信息化;2006年05期
2 徐伟华;张文修;;覆盖广义粗糙集的模糊性[J];模糊系统与数学;2006年06期
3 石杰;;粗糙集理论及其应用研究[J];科技信息;2008年33期
4 唐彬;;粗糙集理论和应用研究[J];内江科技;2008年03期
5 胡军;王国胤;;覆盖粗糙集的模糊度[J];重庆邮电大学学报(自然科学版);2009年04期
6 燕红文;康向平;张丽;;依赖空间与粗糙集理论[J];农业网络信息;2009年09期
7 林国平;;覆盖广义粗糙集与信任函数[J];漳州师范学院学报(自然科学版);2010年02期
8 王石平;祝峰;朱培勇;;基于抽象相关关系的粗糙集研究[J];南京大学学报(自然科学版);2010年05期
9 成新文;陈国超;李琦;;关于粗糙集的理论及应用研究[J];煤炭技术;2010年10期
10 林治;张璇;;粗糙集理论的应用探析[J];邢台职业技术学院学报;2011年03期
相关会议论文 前10条
1 黎文航;陈善本;王兵;;粗糙集理论在焊接中的应用综述[A];第十一次全国焊接会议论文集(第2册)[C];2005年
2 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年
3 邹刚;滕书华;孙即祥;陈森林;敖永红;;一种粗糙集优化协同原型模式约简分类方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
4 葛丽;傅彦;;粗糙集在科学数据属性约简中的应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 陈雪飞;;粗糙集分类中耦合数据的处理方法研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
6 肖健梅;芦晓明;王锡淮;;集装箱起重机防摇系统粗糙集控制[A];第二十六届中国控制会议论文集[C];2007年
7 王印松;冯康;;主汽温调节系统性能评价的粗糙集实现方法[A];第二十七届中国控制会议论文集[C];2008年
8 王红萍;万程亮;金彦丰;;应用粗糙集理论的对抗效果权重确定方法[A];2009’中国西部地区声学学术交流会论文集[C];2009年
9 王莉;周献中;;一种基于粗糙集的模糊神经网络模型在钢材力学性能预测中的研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 卓明;王丽珍;谭旭;;基于粗糙集近似集扩展的规则提取算法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
相关博士学位论文 前10条
1 马希骜;概率粗糙集属性约简理论及方法研究[D];西南交通大学;2014年
2 唐孝;基于粗糙集的知识发现方法及其在ECG信号识别中的应用[D];电子科技大学;2015年
3 曾凯;邻域粒化粗糙计算的关键技术研究与应用[D];电子科技大学;2015年
4 鲍忠奎;面向不确定信息系统的粗糙集扩展模型研究[D];合肥工业大学;2015年
5 王永生;基于粗糙集理论的动态数据挖掘关键技术研究[D];北京科技大学;2016年
6 薛佩军;正负域覆盖广义粗糙集与知识粗传播研究[D];山东大学;2007年
7 孔芝;粗糙集理论若干问题的研究与应用[D];东北大学;2009年
8 秦中广;基于粗糙集的交叉研究及其在中医诊断的应用[D];华南理工大学;2002年
9 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
10 邓大勇;基于粗糙集的数据约简及粗糙集扩展模型的研究[D];北京交通大学;2007年
相关硕士学位论文 前10条
1 江飞;粗糙集神经网络故障诊断方法研究[D];西安石油大学;2015年
2 何理荣;粗糙集理论在银行信贷风险评估中的应用研究[D];华南理工大学;2015年
3 张德齐;基于粗糙集理论的电机故障诊断方法研究[D];渤海大学;2015年
4 杨礼;基于粗糙集的公路交通安全预警研究[D];西南交通大学;2015年
5 聂萌瑶;基于泛系串并模型的粗糙集概念扩展与拓扑空间[D];兰州大学;2015年
6 徐鹏;基于粗糙集的建筑起重机械安全精细化评价研究[D];西安建筑科技大学;2015年
7 孙宇航;粗糙集属性约简方法在医疗诊断中的应用研究[D];苏州大学;2015年
8 张曼;基于粗糙集和包含度的聚类分类算法研究[D];青岛理工大学;2015年
9 车世远;基于群搜索优化粗糙集的脑科学数据研究[D];大连海事大学;2015年
10 林哲;基于粗糙集的马田系统研究及其在银行直接营销客户分类中的应用[D];南京理工大学;2015年
,本文编号:1956660
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1956660.html