基于稀疏和信息论的无监督特征学习算法研究
本文关键词: 特征选择 子空间学习 稀疏建模 降维 机器学习 出处:《电子科技大学》2017年博士论文 论文类型:学位论文
【摘要】:随着数据采集技术的不断进步,原始数据的维度变的越来越高。更高维度的数据能获得更多有用信息的同时也引入很多冗余、增加算法的计算复杂度。为了适应日益增长的数据维度和有效处理样本数据,减少数据的冗余,如何从高维度数据中有效的学习到低维度特征是现在数据处理及大数据中迫切需要解决的问题。随着数据采集方式越来越多样化,数据样本的数量越来越多,若对训练样本进行人工标记需要消耗大量的时间成本和人力成本。因此,无监督的数据降维特征学习方法越来越受人们所重视。本文以无监督特征学习算法为研究课题,重点研究了基于稀疏和信息论的无监督特征学习算法,所包含的两大块研究内容如下:第一,本文研究了在基于稀疏建模的无监督特征选择方法的建模及算法设计。首先,特征选择问题被建模成子空间学习模型,并通过在模型中加入稀疏约束来选择出更有用的特征。这部分提出了三种基于子空间学习的特征选择方法:1)为了更有效地选择出特征且消除负贡献对问题的影响,提出了一种基于非负子空间学习模型。为了更有效地挖掘数据内部信息,本文将自适应稀疏性框架ISD加入到子空间学习的过程中,提出了一种非负自适应稀疏约束的子空间学习模型;2)为了充分应用数据内部的信息,本文进一步考虑将数据的局部结构加入到子空间学习的过程中,提出了一种全局及局部结构保持的子空间学习模型;3)在无监督背景下,为了加入判别信息,本文将样本聚类信息作为一种判别信息加入到子空间学习的过程中,提出了一种判别子空间学习方法。第二,本文研究了基于信息论学习的鲁棒无监督特征学习方法。在特征学习中若数据存在局外点,基于Frobenius范数设计的目标函数会受到局外点的严重影响。本文采用信息论学习中最大相关熵准则对目标函数进行建模,提出了两种基于最大相关熵准则的鲁棒特征学习模型:1)为了提高无监督特征选择模型对于局外点的鲁棒性,本文采用最大相关熵准则与局部结构保持子空间学习相结合对无监督特征选择模型进行建模,并提出了基于最大相关熵准则的鲁棒无监督特征选择模型;2)为了提高稀疏主成分分析(SPCA)关于局外点的鲁棒性,本文采用最大相关熵准则对SPCA进行建模。同时为了更加充分的利用样本内部的信息,于是在SPCA模型中加入多超图学习正则项,使模型能够利用样本内部的流形信息,并提出一种基于最大相关熵准则和高阶流形约束的稀疏主成分分析模型。
[Abstract]:With the development of data acquisition technology, the dimension of raw data becomes higher and higher. The higher dimension data can obtain more useful information, but also introduce a lot of redundancy. Increase the computational complexity of the algorithm. In order to adapt to the growing data dimension and effectively process the sample data, reduce the data redundancy, How to effectively learn low-dimensional features from high-dimensional data is an urgent problem in data processing and big data. With the increasing diversity of data acquisition methods, the number of data samples is increasing. If manual marking of training samples requires a large amount of time and manpower costs, unsupervised dimensionality reduction feature learning methods are paid more and more attention. In this paper, unsupervised feature learning algorithm is taken as a research topic. This paper focuses on the unsupervised feature learning algorithm based on sparse and information theory. The research contents are as follows: first, this paper studies the modeling and algorithm design of unsupervised feature selection method based on sparse modeling. The feature selection problem is modeled as a subspace learning model. In this part, we propose three feature selection methods based on subspace learning:: 1) in order to select the feature more effectively and eliminate the negative contribution to the problem. In this paper, a non-negative subspace learning model is proposed. In order to mine the internal information of the data more effectively, the adaptive sparse framework (ISD) is added to the learning process of the subspace. In this paper, a non-negative adaptive sparse constraint subspace learning model is proposed. In order to fully apply the information inside the data, the local structure of the data is further considered in the process of subspace learning. In this paper, a global and local structure-preserving subspace learning model is proposed. In order to add discriminant information, sample clustering information is added to the process of subspace learning under unsupervised background. A discriminant subspace learning method is proposed. Secondly, a robust unsupervised feature learning method based on information theory learning is studied. The objective function based on Frobenius norm design will be seriously affected by the local point. In this paper, the maximum correlation entropy criterion in information theory learning is used to model the objective function. In order to improve the robustness of the unsupervised feature selection model to the local and outer points, two robust feature learning models based on the maximum correlation entropy criterion are proposed. In this paper, the model of unsupervised feature selection is modeled by using the maximum correlation entropy criterion and local structure preserving subspace learning. In order to improve the robustness of sparse principal component analysis (SPCA), a robust unsupervised feature selection model based on the maximum correlation entropy criterion is proposed. In this paper, the maximum correlation entropy criterion is used to model the SPCA. In order to make full use of the information inside the sample, we add the multi-hypergraph to the SPCA model to learn the regular term, so that the model can make use of the manifold information inside the sample. A sparse principal component analysis model based on maximum correlation entropy criterion and higher order manifold constraints is proposed.
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 何一鸣;;无监督的互联网事件抽取框架[J];计算机工程与设计;2011年03期
2 曹丽;陈才扣;;核无监督鉴别投影及人脸识别[J];计算机工程与设计;2009年15期
3 殷柏涛;一种改进的无监督竞争学习算法[J];声学与电子工程;1995年02期
4 郭小卫;官小平;;一种多尺度无监督遥感图像分割方法[J];遥感信息;2006年06期
5 杨斌;刘卫国;;一种基于聚类的无监督异常检测方法[J];计算机工程与应用;2008年01期
6 孙怿;欧智坚;胡炜;;利用无监督自适应的兴奋解说检测和体育比赛精彩片断提取[J];计算机应用与软件;2008年11期
7 曹苏群;王骏;王士同;;正交约束的无监督统计不相关最佳鉴别平面[J];计算机工程与科学;2010年05期
8 黄璞;陈才扣;;增强的无监督人脸鉴别技术[J];计算机工程与应用;2010年18期
9 吴姗;倪志伟;罗贺;郑盈盈;;一种基于密度的无监督联系发现方法[J];中国管理科学;2008年S1期
10 朱琳;王宇杰;;信息瓶颈方法在无监督图像聚类中的研究[J];微计算机信息;2008年24期
相关会议论文 前10条
1 吴姗;倪志伟;罗贺;郑盈盈;;一种基于密度的无监督联系发现方法[A];第十届中国管理科学学术年会论文集[C];2008年
2 郭瑛媚;史晓东;陈毅东;高燕;;基于词的话题分布相似度的无监督日文旅游意见词翻译[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 徐嘉明;张卫强;刘加;夏善红;;基于无监督迁移分量分析的语种识别[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
4 洪宇;张剑峰;杨跃辉;姚建民;朱巧明;;基于文法特征的无监督能愿词挖掘方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 杨睿;山本博史;菊井玄一郎;S坂芳典;;针对统计机器翻译的无监督中文文本切分[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 张爱华;荆继武;向继;秦钰;;基于规则化词分布特征的无监督特征选取算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 王章辉;赵宇海;王国仁;李源;;一种基于投影聚类的无监督表型区分算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 黄金虎;大卫;;无监督下的词切分和词分类的试验(英文)[A];第一届学生计算语言学研讨会论文集[C];2002年
9 马韬;陈杰;陈文颉;张博;;光纤陀螺信号降噪的无监督自适应滤波方法[A];第二十九届中国控制会议论文集[C];2010年
10 潘霖;张雪英;吉根林;;一种基于Bootstrapping的中文领域术语获取算法[A];中国通信学会第六届学术年会论文集(上)[C];2009年
相关重要报纸文章 前3条
1 记者 雷辉 通讯员 张其明;督促推动立法转变政府职能[N];南方日报;2013年
2 王石川;蒙尘的象牙塔,,权力无监督就会有腐败[N];法制日报;2013年
3 山东 教师 王传涛;无人查与不敢查 皆因权力无监督[N];法制日报;2013年
相关博士学位论文 前10条
1 周楠;基于稀疏和信息论的无监督特征学习算法研究[D];电子科技大学;2017年
2 王寅同;无监督与半监督降维相关问题研究[D];南京航空航天大学;2016年
3 杨波;图驱动的无监督降维和判别子空间学习研究及其应用[D];南京航空航天大学;2010年
4 魏松;人机对话系统中若干关键问题研究[D];北京邮电大学;2007年
5 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年
6 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
7 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年
8 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年
9 王爱国;微阵列基因表达数据的特征分析方法研究[D];合肥工业大学;2015年
10 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年
相关硕士学位论文 前10条
1 王涛;基于领域知识监督的商品方面提取[D];华南理工大学;2015年
2 马陈;基于无监督抠图模型的显著性区域提取算法研究[D];合肥工业大学;2014年
3 师飘;输电线路上鸟巢的检测算法研究[D];北京交通大学;2017年
4 高双印;基于深度学习的药物活性研究[D];新疆大学;2017年
5 林乐平;基于无监督的入侵检测[D];西安电子科技大学;2005年
6 孙勇亮;开放领域的中文实体无监督关系抽取[D];华东师范大学;2014年
7 谷平;基于关联修正的无监督入侵检测算法研究[D];天津理工大学;2014年
8 孙全力;一种无监督的模式识别方法及其在油气识别中的应用[D];成都理工大学;2003年
9 丛万玉;基于无监督的无线传感器网络入侵检测技术研究[D];吉林大学;2009年
10 王晶;无监督的中文实体关系抽取研究[D];华东师范大学;2012年
本文编号:1499577
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1499577.html