无监督与半监督降维相关问题研究
本文选题:降维 切入点:特征提取 出处:《南京航空航天大学》2016年博士论文 论文类型:学位论文
【摘要】:随着科学技术的发展,模式识别在越来越多的社会活动中扮演重要角色,常见的有文本数据识别、人脸图像识别、遥感图像识别、生物信息识别等。与此同时,高维数据的出现也给模式识别带来巨大的挑战,主要体现在计算复杂度高并且识别结果不令人满意。降维作为高维数据处理的关键研究问题之一,将原始高维数据由高维空间以某种方式映射到低维空间上的过程,能够抽取得到对数据识别有意义的重要特征,移除特征集中不相关和冗余的特征。尽管降维的研究已取得丰富的成果,但是当前许多实际问题中的数据呈现高维度、大数据量、类别标记缺失等特点,降维技术仍需通过对现有方法进行完善或探索新的理论方法以获得进一步的发展。本文主要贡献和研究内容包括如下四个方面:(1)针对类别标记不完整的数据集上的特征提取问题,如类别标记信息的利用、多模态分布的相似数据距离度量,提出重构概率类的半监督局部线性判别分析。该方法中的重构概率类赋予每一个无类别标记数据所属类别的概率,这一类别由该数据的最邻近有类别标记数据确定,进而实现降维过程中有标记数据和无标记数据的充分融合。类间散度矩阵和类内散度矩阵计算中引入差异化的数据对象距离的权重,使得多模态分布的数据由高维空间映射到低维空间时,类间数据对象尽可能地分离且类内邻近数据对象尽可能地紧凑。(2)针对无类别标记数据上的特征之间相关性研究,提出基于信息理论的无监督相关度增益度量,能够有效地度量无类别标记数据的特征重要性和特征之间相关性,避免无类别标记数据特征选择过程中多次迭代地执行学习算法以评估特征子集的重要性。无类别标记数据的特征重要性定义为对应特征与所有特征的平均互信息,并由推论得出在朴素贝叶斯条件下对应特征的重要性可以最大化地逼近真实数据特征与潜在类别之间的相关性。(3)为了解决目前无监督特征选择方法中缺少有效的无监督特征相关性度量、执行效率偏低和易陷入局部最优解等问题,提出两种无监督特征选择方法,包括基于相关度增益和Markov blanket聚类的特征选择和基于相关度增益和粒子群优化的特征选择。前者以特征为节点、相关度增益为权重边构建有向无环图,由Markov blanket划分有向无环图实现冗余特征的聚类,从每个特征簇中选择一个代表特征组成所选的特征子集。后者是在前者基础上提出的一种粒子群优化的启发式特征选择方法,粒子的随机运动和多粒子的相互作用能够避免特征选择过早地陷入局部最优解,进而以更大概率获得全局最优解。(4)实际应用中有类别标记数据的获取难度远大于无类别标记数据,在许多数据集中,只有少量的数据对象具有类别标记信息。采用有监督或无监督特征选择所取得的特征子集仅利用了数据集的部分信息,而舍去剩余的无类别标记数据或已有类别标记信息。针对这一问题,提出基于信息理论和相关度增益的半监督代表特征选择,通过一个平衡因子将有类别标记数据特征的互信息和无类别标记数据特征的相关度增益紧密地结合在一起,充分利用了整个数据集的信息来度量特征重要性和特征之间相关性。
[Abstract]:......
【学位授予单位】:南京航空航天大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.4
【相似文献】
相关期刊论文 前10条
1 何一鸣;;无监督的互联网事件抽取框架[J];计算机工程与设计;2011年03期
2 曹丽;陈才扣;;核无监督鉴别投影及人脸识别[J];计算机工程与设计;2009年15期
3 殷柏涛;一种改进的无监督竞争学习算法[J];声学与电子工程;1995年02期
4 郭小卫;官小平;;一种多尺度无监督遥感图像分割方法[J];遥感信息;2006年06期
5 杨斌;刘卫国;;一种基于聚类的无监督异常检测方法[J];计算机工程与应用;2008年01期
6 孙怿;欧智坚;胡炜;;利用无监督自适应的兴奋解说检测和体育比赛精彩片断提取[J];计算机应用与软件;2008年11期
7 曹苏群;王骏;王士同;;正交约束的无监督统计不相关最佳鉴别平面[J];计算机工程与科学;2010年05期
8 黄璞;陈才扣;;增强的无监督人脸鉴别技术[J];计算机工程与应用;2010年18期
9 吴姗;倪志伟;罗贺;郑盈盈;;一种基于密度的无监督联系发现方法[J];中国管理科学;2008年S1期
10 朱琳;王宇杰;;信息瓶颈方法在无监督图像聚类中的研究[J];微计算机信息;2008年24期
相关会议论文 前10条
1 吴姗;倪志伟;罗贺;郑盈盈;;一种基于密度的无监督联系发现方法[A];第十届中国管理科学学术年会论文集[C];2008年
2 郭瑛媚;史晓东;陈毅东;高燕;;基于词的话题分布相似度的无监督日文旅游意见词翻译[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 徐嘉明;张卫强;刘加;夏善红;;基于无监督迁移分量分析的语种识别[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
4 洪宇;张剑峰;杨跃辉;姚建民;朱巧明;;基于文法特征的无监督能愿词挖掘方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 杨睿;山本博史;菊井玄一郎;S坂芳典;;针对统计机器翻译的无监督中文文本切分[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 张爱华;荆继武;向继;秦钰;;基于规则化词分布特征的无监督特征选取算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 王章辉;赵宇海;王国仁;李源;;一种基于投影聚类的无监督表型区分算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 黄金虎;大卫;;无监督下的词切分和词分类的试验(英文)[A];第一届学生计算语言学研讨会论文集[C];2002年
9 马韬;陈杰;陈文颉;张博;;光纤陀螺信号降噪的无监督自适应滤波方法[A];第二十九届中国控制会议论文集[C];2010年
10 潘霖;张雪英;吉根林;;一种基于Bootstrapping的中文领域术语获取算法[A];中国通信学会第六届学术年会论文集(上)[C];2009年
相关重要报纸文章 前3条
1 记者 雷辉 通讯员 张其明;督促推动立法转变政府职能[N];南方日报;2013年
2 王石川;蒙尘的象牙塔,,权力无监督就会有腐败[N];法制日报;2013年
3 山东 教师 王传涛;无人查与不敢查 皆因权力无监督[N];法制日报;2013年
相关博士学位论文 前3条
1 王寅同;无监督与半监督降维相关问题研究[D];南京航空航天大学;2016年
2 杨波;图驱动的无监督降维和判别子空间学习研究及其应用[D];南京航空航天大学;2010年
3 魏松;人机对话系统中若干关键问题研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 王涛;基于领域知识监督的商品方面提取[D];华南理工大学;2015年
2 马陈;基于无监督抠图模型的显著性区域提取算法研究[D];合肥工业大学;2014年
3 林乐平;基于无监督的入侵检测[D];西安电子科技大学;2005年
4 孙勇亮;开放领域的中文实体无监督关系抽取[D];华东师范大学;2014年
5 谷平;基于关联修正的无监督入侵检测算法研究[D];天津理工大学;2014年
6 孙全力;一种无监督的模式识别方法及其在油气识别中的应用[D];成都理工大学;2003年
7 丛万玉;基于无监督的无线传感器网络入侵检测技术研究[D];吉林大学;2009年
8 王晶;无监督的中文实体关系抽取研究[D];华东师范大学;2012年
9 黄少群;基于谱回归的无监督特征选择算法研究[D];厦门大学;2014年
10 张志良;面向服务聚类的无监督异常检测技术研究[D];中南大学;2009年
本文编号:1595520
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1595520.html