基于模糊聚类和粗糙集的连续值属性约简研究
本文关键词:基于模糊聚类和粗糙集的连续值属性约简研究
【摘要】:属性约简是粗糙集理论的研究热点之一,它是一种保证属性分类能力不变的前提下,剔除冗余属性的过程。通过属性约简,可以实现数据表的列压缩,从而降低数据挖掘的数据量,提升挖掘效率。目前基于粗糙集的属性约简算法多数只适用于离散型数据。然而,在现实工作中,不仅有符号、类别等离散型数据,更有大量的连续型数据,甚至二者的混合。因此,在粗糙集属性约简算法的应用中,通常先对连续数据进行离散化处理。然而,离散化处理过程难以保存属性在数值上的差异,难免造成一定程度的信息损失。因此本文深入研究以往文献,提出了一种基于模糊聚类和粗糙集的连续值属性约简算法。基于模糊聚类和粗糙集的连续值属性约简算法主要分为两个部分:第一部分,引入模糊聚类,将属性值上的模糊性转化为对象关系的模糊性,并以此得到论域对象的划分,这部分相当于粗糙集属性约简中的等价类划分;第二部分,同样运用模糊聚类,将相似度贴近的属性聚为一类,并从每一类中选择代表性的属性构成约简属性子集,而在属性子集的评价上,结合了粗糙集依赖度的概念。通过模糊聚类和粗糙集结合算法得到的属性约简,综合考虑了属性的相异性与相关性,在保证属性信息覆盖广度的同时,降低了约简过程的信息损失,并在依赖度概念上保持了信息系统的分类能力不变。区别于以往粗糙集的启发式属性约简算法,基于模糊聚类和粗糙集的属性约简不需要计算核属性,也省去了逐层逐个计算属性重要度的过程,因而在算法上有所提升。最后通过7组UCI标准数据集以及3组经济金融数据的仿真实验,表明本文提出的算法有效,并且在进一步的决策树分类中,基于约简属性的预测精度多数情况下高于全部条件属性的预测精度。
【关键词】:模糊聚类 粗糙集 属性约简 连续值决策表
【学位授予单位】:首都经济贸易大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F224
【目录】:
- 摘要4-5
- Abstract5-8
- 1 引言8-16
- 1.1 研究背景及意义8-9
- 1.2 属性约简的研究现状9-12
- 1.2.1 粗糙集理论的属性约简9-11
- 1.2.2 模糊集理论的属性约简11-12
- 1.3 本文的主要工作与创新12-14
- 1.4 本文组织结构14-16
- 2 基于粗糙集的属性约简算法分析16-27
- 2.1 粗糙集的理论分析16-20
- 2.1.1 粗糙集理论16-18
- 2.1.2 决策表属性约简18-20
- 2.1.3 属性选择标准20
- 2.2 基于属性重要性的启发式属性约简算法20-25
- 2.2.1 启发式属性约简算法20-21
- 2.2.2 基于Pawlak属性重要度的属性约简算法21
- 2.2.3 基于差别矩阵的属性约简算法21-23
- 2.2.4 基于信息熵的属性约简算法23-25
- 2.3 粗糙集属性约简算法的局限性25-26
- 2.4 本章小结26-27
- 3 基于模糊聚类和粗糙集的属性约简27-39
- 3.1 模糊集理论27-29
- 3.2 模糊聚类技术分析29-34
- 3.3 基于模糊聚类和粗糙集的属性约简算法34-38
- 3.3.1 条件属性的模糊聚类分析34-36
- 3.3.2 基于模糊聚类和粗糙集的属性约简36-38
- 3.4 本章小结38-39
- 4 连续值属性约简算法设计39-50
- 4.1 粗糙集与模糊聚类结合39-42
- 4.2 连续值属性约简算法设计与实现42-49
- 4.2.1 基于模糊聚类和粗糙集的连续型决策表对象离散化43-44
- 4.2.2 基于模糊聚类和粗糙集的连续值属性约简44-49
- 4.3 本章小结49-50
- 5 仿真实验及分析50-55
- 5.1 数据准备与参数设定50-51
- 5.2 实验结果分析51-54
- 5.3 本章小结54-55
- 6 总结与展望55-57
- 参考文献57-61
- 附录61-65
- 在学期间发表的学术论文和研究成果65-66
- 致谢66-67
【相似文献】
中国期刊全文数据库 前10条
1 谭耀武;;基于数据挖掘粗糙集技术的电信运营商客户价值评价[J];沿海企业与科技;2006年01期
2 范霄文;郭惠英;;粗糙集理论的统计扩展及应用[J];统计与决策;2008年13期
3 刘昭斌;李金祥;刘文芝;;基于粗糙集的研究性学习的评价[J];管理观察;2008年15期
4 梁如冰;蔡小娟;;粗糙集理论在水文水资源方面的应用现状及展望[J];水利科技与经济;2009年12期
5 刘香怡;;粗糙集在教学质量评价中的应用[J];中国管理信息化;2011年22期
6 于迎春;;覆盖粗糙集中基于信息熵的几个定义[J];商业文化(下半月);2012年02期
7 梁第;张铭丽;邓伟;;粗糙集理论与其他理论结合的研究[J];山东省农业管理干部学院学报;2012年02期
8 吕跃进;张旭娜;韦碧鹏;;基于优势关系粗糙集的模糊综合评价的权重确定[J];统计与决策;2012年20期
9 刘超;吴洪波;;粗糙集理论及其在管理决策中的应用现状[J];职业技术;2007年12期
10 骆公志;杨晓江;;基于划分类归并的粗糙集属性约简新算法[J];统计与决策;2009年20期
中国重要会议论文全文数据库 前10条
1 黎文航;陈善本;王兵;;粗糙集理论在焊接中的应用综述[A];第十一次全国焊接会议论文集(第2册)[C];2005年
2 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年
3 邹刚;滕书华;孙即祥;陈森林;敖永红;;一种粗糙集优化协同原型模式约简分类方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
4 葛丽;傅彦;;粗糙集在科学数据属性约简中的应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 陈雪飞;;粗糙集分类中耦合数据的处理方法研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
6 肖健梅;芦晓明;王锡淮;;集装箱起重机防摇系统粗糙集控制[A];第二十六届中国控制会议论文集[C];2007年
7 王印松;冯康;;主汽温调节系统性能评价的粗糙集实现方法[A];第二十七届中国控制会议论文集[C];2008年
8 王红萍;万程亮;金彦丰;;应用粗糙集理论的对抗效果权重确定方法[A];2009’中国西部地区声学学术交流会论文集[C];2009年
9 王莉;周献中;;一种基于粗糙集的模糊神经网络模型在钢材力学性能预测中的研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 卓明;王丽珍;谭旭;;基于粗糙集近似集扩展的规则提取算法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国博士学位论文全文数据库 前10条
1 马希骜;概率粗糙集属性约简理论及方法研究[D];西南交通大学;2014年
2 唐孝;基于粗糙集的知识发现方法及其在ECG信号识别中的应用[D];电子科技大学;2015年
3 曾凯;邻域粒化粗糙计算的关键技术研究与应用[D];电子科技大学;2015年
4 鲍忠奎;面向不确定信息系统的粗糙集扩展模型研究[D];合肥工业大学;2015年
5 王永生;基于粗糙集理论的动态数据挖掘关键技术研究[D];北京科技大学;2016年
6 薛佩军;正负域覆盖广义粗糙集与知识粗传播研究[D];山东大学;2007年
7 孔芝;粗糙集理论若干问题的研究与应用[D];东北大学;2009年
8 秦中广;基于粗糙集的交叉研究及其在中医诊断的应用[D];华南理工大学;2002年
9 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
10 邓大勇;基于粗糙集的数据约简及粗糙集扩展模型的研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 江飞;粗糙集神经网络故障诊断方法研究[D];西安石油大学;2015年
2 何理荣;粗糙集理论在银行信贷风险评估中的应用研究[D];华南理工大学;2015年
3 张德齐;基于粗糙集理论的电机故障诊断方法研究[D];渤海大学;2015年
4 杨礼;基于粗糙集的公路交通安全预警研究[D];西南交通大学;2015年
5 聂萌瑶;基于泛系串并模型的粗糙集概念扩展与拓扑空间[D];兰州大学;2015年
6 徐鹏;基于粗糙集的建筑起重机械安全精细化评价研究[D];西安建筑科技大学;2015年
7 孙宇航;粗糙集属性约简方法在医疗诊断中的应用研究[D];苏州大学;2015年
8 张曼;基于粗糙集和包含度的聚类分类算法研究[D];青岛理工大学;2015年
9 车世远;基于群搜索优化粗糙集的脑科学数据研究[D];大连海事大学;2015年
10 林哲;基于粗糙集的马田系统研究及其在银行直接营销客户分类中的应用[D];南京理工大学;2015年
,本文编号:668445
本文链接:https://www.wllwen.com/jingjifazhanlunwen/668445.html