基于多视图的半监督特征选择算法研究
本文选题:计算机 切入点:算法 出处:《山东师范大学》2017年硕士论文 论文类型:学位论文
【摘要】:在处理计算机问题时,现实中遇到的数据一般都是高维度的,存在很多不相关的冗长特征。这为现实问题的解决带来了一定的困难。人们研究出了特征选择算法,以此提高算法选择的准确率。此方法可以高效的对数据进行降维,能够从数据的原始特征中直接选择出最优化的特征子集。因此,针对这一课题的研究已成为机器学习和数据挖掘领域的热点研究课题。在解决实际问题时也会发现数据之间具有多个视图,多视图学习也是机器学习过程中的重点研究课题。若是能在多视图数据之间发现他们隐藏的互补性关系,那么就可以在很大程度上提高学习的效果。然而随着现代社会技术的发展,数据的大规模应用加大了提取数据并进行标记的难度。那么如何在这种环境下获得数据之间多视图关系,并以此选择出最大相关和最小冗余的子集,这是本文研究的主要内容。参照当前计算及算法研究领域的最新进展,分析并研究出了一种基于多视图的半监督特征选择算法方式。此算法不但能够有效的提取多视图之间的互补信息,而且可以分析不同视图中各个特征间的冗余关系。结合少量标记的数据信息和没有标记的数据信息,同时进行特征选择和聚类学习,从而解决部分标记的多视图数据。本文的研究工作主要有以下贡献:(1)将本文构建一种改进的并行SVM,基于w-model,采取多个SVM分类器并行计算数据,此方法既确保分类器推广性能又缩短训练时间。(2)在进行多视图的特征选择时,对每个视图中各个特征间的冗余关系进行了综合考虑。
[Abstract]:When dealing with computer problems, the data encountered in reality are generally high-dimensional, and there are a lot of irrelevant lengthy features. This brings some difficulties to the solution of practical problems. People have developed a feature selection algorithm. This method can effectively reduce the dimension of the data, and can directly select the optimal feature subset from the original features of the data. The research on this subject has become a hot research topic in the field of machine learning and data mining. Multi-view learning is also an important research topic in the process of machine learning. Then we can improve the effect of learning to a great extent. However, with the development of modern society and technology, The large-scale application of data makes it more difficult to extract and mark data. In this environment, how to obtain the multi-view relationship between the data and select the subset of maximum correlation and minimal redundancy, This is the main content of this paper. This paper analyzes and studies a semi-supervised feature selection algorithm based on multi-view, which not only can extract the complementary information between multi-views, In addition, we can analyze the redundant relations among different features in different views, combine a small amount of tagged data information and unmarked data information, and carry out feature selection and clustering learning at the same time. The main contributions of this paper are as follows: 1) this paper constructs an improved parallel SVM, which is based on w-model, and uses several SVM classifiers to compute the data in parallel. This method not only ensures the generalization performance of classifier but also shortens the training time. 2) in the feature selection of multiple views, the redundant relations among each feature in each view are considered synthetically.
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP181;TP391.1
【参考文献】
相关期刊论文 前10条
1 张德军;何发智;袁志勇;石强;;基于模糊粗糙集的半监督影像分类算法[J];华中科技大学学报(自然科学版);2016年01期
2 谢乃俊;杨国亮;罗璐;梁礼明;;基于低秩评分的非监督特征选择算法[J];计算机工程与设计;2015年06期
3 代琨;于宏毅;仇文博;李青;;基于SVM的网络数据无监督特征选择算法[J];吉林大学学报(工学版);2015年02期
4 汪荆琪;徐林莉;;一种基于多视图数据的半监督特征选择和聚类算法[J];数据采集与处理;2015年01期
5 林荣强;李鸥;李青;李林林;;基于类标记扩展的半监督网络流量特征选择算法[J];计算机应用;2014年11期
6 王亦兵;潘志松;吴君青;贾波;胡谷雨;;基于链接关系的半监督特征选择算法[J];模式识别与人工智能;2014年02期
7 A.Y.Galashev;;Computer study of the spectral characteristics of the disperse water methane system[J];Chinese Physics B;2013年12期
8 Alexander Galashev;;Computer study of the formation of water-ammonia clusters and their dielectric properties[J];Chinese Physics B;2013年07期
9 李平红;王勇;陶晓玲;;基于成对约束扩展的半监督网络流量特征选择算法[J];传感器与微系统;2013年05期
10 王博;黄九鸣;贾焰;杨树强;;适用于多种监督模型的特征选择方法研究[J];计算机研究与发展;2010年09期
,本文编号:1641539
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1641539.html