不完整数据集的多视角集成分类研究
本文关键词:不完整数据集的多视角集成分类研究 出处:《安徽大学》2016年博士论文 论文类型:学位论文
更多相关文章: 不完整数据 商空间 神经网络 多视角 集成学习
【摘要】:随着通讯技术,物联网技术,传感器技术等技术的迅速发展,当今几乎在任何地方都可以产生数据。这些实际应用中获取的数据,往往由于各种各样的原因会出现数据缺失的情况。例如,在调查问卷中,由于接受问卷者个人原因,一些问卷会出现拒绝回答的项目;在生物信息中的基因表达数据中,由于芯片的擦痕,灰尘等原因,同样会导致部分数据的缺失。考虑到传统的机器学习技术往往针对的是完整数据,因此,如何处理不完整数据成为了机器学习中的一个重要的研究课题。当前对不完整数据集分类的研究,如对缺失值进行填充等,多数方法都需要依赖一些假设,比如随机缺失(MAR)假设,属性独立性假设等。集成学习方法作为不完整数据集的一种有效的处理方法,与缺失值填充的方法相比,其最大的优点是不依赖MAR假设,但是当前集成方法在处理不完整数据集时仍然面临着诸如时间复杂度高,算法效率不够理想等问题。粒度计算是近年来人工智能领域中模拟人类思维求解问题的新的方法。它涵盖了所有有关粒度的理论、方法和工具,已成为不确定性、模糊性、复杂性问题求解以及海量信息处理的重要工具。粒度计算的主要理论模型包括粗糙集理论,模糊集理论以及商空间理论。其中商空间理论是多粒度计算的主要理论模型。本文针对不完整数据集数据缺失的特点,基于商空间理论中的多侧面、多视角问题求解的思路,提出针对不同缺失属性组合构造多个不同视角的分类器,以及对各个分类器重要度的度量方法,并在此基础上研究了多视角分类器的优化方法。同时本文针对癌症基因表达式数据的特点,提出首先进行属性选择,然后利用选择性的多视角集成方式实现多视角的集成分类。本文的主要研究内容概括如下:(1)研究不完整数据集多视角分类器的构建及重要度度量方法基于不完整数据集中存在的不完整属性的组合,构建不完整数据集对应的缺失属性树。基于该缺失属性树,得到一组数据子集,同时利用神经网络作为基础分类器,采用Bagging策略在每个数据子集上训练得到一个子分类器,对于一个测试样本,算法首先选择合适的子分类器对其进行预测,然后利用多数投票的方式决定其最终的类别。本文同时引入了信息熵来度量子分类器的重要度,并具体研究了几种不同的加权方法对算法准确率的影响。(2)研究不完整数据集多视角分类器的优化方法在缺失属性树的基础上,针对神经网络集成分类方法在子分类器过多时,算法复杂度过高的问题,提出了一种多视角集成分类的优化方法(SNNE)。该方法通过判断缺失属性树中对应的缺失属性集(有效属性集合)之间的包含关系以及两者与类别的相关度,在保证算法可预测率和准确率的基础上,通过一个给定的阈值删除一部分冗余的数据子集,通过减少子分类器个数,有效的提高算法的执行效率。实验表明,在给定阈值为0.05的情况下,算法能够在保证准确率的基础上有效的提升执行效率。(3)研究了基于卡方检验和超限学习机的多视角集成分类方法针对不完整数据集中存在的与类别的相关度非常低,对分类的精度有着不利的影响的属性。本文提出了一种基于卡方检验的属性选择方法(C_ELM),该方法通过将传统的卡方检验应用到不完整数据集中,通过一个给定的阂值,选择删除部分与类别相关性较小的属性。同时考虑到,传统的神经网络由于采用梯度下降方法而造成时间复杂度过高的问题,利用超限学习机作为基础分类器,在缺失属性树的基础上,构造一组基于投票的超限学习机(v-elms)。针对由于缺失值导致的少量的样本可能无法找到合适的分类器进行预测的问题,我们又利用单属性训练得到一组备选分类器用来解决此类样本的分类问题。实验表明,通过删除不相关属性和采用ELM,该方法能够有效的提升算法的预测精度和稳定性。(4)研究癌症基因表达数据的选择性多视角集成分类方法本文针对癌症基因表达式数据样本较少且维数(基因个数)较高的特征,提出了利用卡方检验进行特征选择,并依据相关度的大小对剩余的基因进行相关度的排序,按照best first search (BFS)的策略,提出了一种基于BFS的选择性多视角集成分类算法。实验表明,该方法能够有效的删除大量的不相关属性,同时通过选择最重要的属性能够有效的提升预测的精度。
[Abstract]:This paper presents a new method to solve the problem of incomplete data set , such as random missing ( MAR ) hypothesis , attribute independence hypothesis , etc . ( 2 ) The optimization method of incomplete data set multi - view classifier is studied on the basis of missing attribute tree .
【学位授予单位】:安徽大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP181
【参考文献】
相关期刊论文 前10条
1 赵姝;吕靖;张燕平;张以文;;不完整数据集的信息熵集成分类算法[J];模式识别与人工智能;2014年03期
2 郎咸吉;王加阳;;商空间合成技术[J];模式识别与人工智能;2013年12期
3 王加阳;杨正华;;两种结构的商空间模型比较研究[J];电子学报;2013年11期
4 张钹;张铃;;粒计算未来发展方向探讨[J];重庆邮电大学学报(自然科学版);2010年05期
5 王国胤;张清华;胡军;;粒计算研究综述[J];智能系统学报;2007年06期
6 ;Three Perspectives of Granular Computing[J];南昌工程学院学报;2006年02期
7 蒙祖强;蔡自兴;;一种新的计算方法:粒度进化计算[J];计算机工程与应用;2006年01期
8 仇国芳,陈劲;概念知识系统与概念信息粒格[J];工程数学学报;2005年06期
9 张燕平,张铃,吴涛;机器学习中的多侧面递进算法MIDA[J];电子学报;2005年02期
10 张燕平,张铃,吴涛,徐锋,张,王伦文;基于覆盖的构造性学习算法SLA及在股票预测中的应用[J];计算机研究与发展;2004年06期
相关博士学位论文 前5条
1 毛莎莎;基于贪婪优化和投影变换的集成分类器算法研究[D];西安电子科技大学;2014年
2 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
3 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
4 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
5 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
相关硕士学位论文 前2条
1 赵亮;不完整数据减法聚类填充算法研究与应用[D];大连理工大学;2014年
2 吕靖;不完整数据集成分类算法的研究[D];安徽大学;2013年
,本文编号:1374385
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1374385.html