当前位置:主页 > 科技论文 > 自动化论文 >

基于图的半监督分类算法研究

发布时间:2018-01-27 09:59

  本文关键词: 图的半监督分类 测地距离 局部和全局一致性算法 K均值聚类 出处:《陕西师范大学》2012年硕士论文 论文类型:学位论文


【摘要】:在机器学习和数据挖掘领域,半监督学习越来越受到科研人员的关注,逐步成为当前的研究热点。半监督学习中,半监督分类利用大量非标签数据辅助少部分标签数据进行监督学习,从而提高分类的性能。基于图的半监督分类是现在研究较多的方法,该类方法具有较好的分类性能。然而基于图的方法计算复杂度比较高,当图规模比较大时,需要的时间和存储代价都非常大,而且基于图的方法都是直推式的,对新数据无法进行分类,这在一定程度上限制了基于图的方法使用。本文主要针对基于图的半监督分类存在的这些问题,进行了分析与研究。 本文主要针对基于局部和全局一致性算法进行研究,该算法的基本思想是基于已标记样本和未标记样本建立一个图,用边的权重来表示样本之间的相似度,然后让每个样本的标记信息迭代地向其邻近样本传播,直到达到全局稳定状态,该方法直观、灵活,但是计算复杂度大,且无法对新数据进行分类。本文针对该算法存在的不足之处进行了改进,应用于图像分类中,并和其他方法进行了比较与分析。本文的研究工作主要包括以下几方面: (1)介绍了图像分类的相关理论,半监督学习的基本理论,当前国内外研究现状,且对半监督学习中基于图的方法所涉及的理论基础、研究现状以及该方法中所存在的问题和难点进行了综述,对半监督学习的主要应用进行了阐述,并且重点介绍了基于局部和全局一致性算法。 (2)针对图像提出了一种基于图的半监督分类方法,该方法对图的相似矩阵的度量方法进行了改进,使用更能准确地反映样本间拓扑结构的测地距离对相似矩阵进行度量,并且运用了复合核的策略,结合了图像的谱信息和空间信息,进而使算法的分类性能有所提高。实验结果表明,采用该算法较之于原算法,获得了更好的分类性能。 (3)为解决基于图的半监督分类算法的计算复杂度比较高和对新数据无法分类的问题。本文提出了一种将K均值算法和基于图的方法相结合的分类算法,利用已标记样本的标签信息,通过K均值方法获取更多的已标记信息,减少基于图方法迭代过程的迭代次数,从而降低了图方法的计算复杂度;算法最终确定的类中心解决了基于图的分类算法无法对新数据进行分类的问题,增强了其对新数据分类的扩展性;通过设置参数取值的实验结果分析,找出了参数的最佳取值范围。实验结果表明,提出的算法在计算效率和分类正确率方面有明显的提高。
[Abstract]:In the field of machine learning and data mining, semi supervised learning has attracted more and more attention by the researchers, has gradually become a research hotspot. In semi supervised learning, semi supervised classification using large amounts of unlabeled data auxiliary part of unlabeled data for supervised learning, so as to improve the performance of classification. Graph based semi supervised classification is now on many methods, the method has good classification performance. However, the method based on the computational complexity is relatively high, when the graph size is large, the time and cost of storage are very large, and graph based methods are direct push, the new data can not be classified, which limits the use of a graph based approach to a certain extent. This paper mainly aimed at the existing semi supervised classification based on these problems, are analyzed and studied.
This paper studies the local and global consistency algorithm based on the basic idea of the algorithm is the labeled samples and unlabeled samples is established based on a graph, with edge weights representing the similarity between the samples, and then let the mark information iteration of each sample to its adjacent sample transmission, until it reaches the global stable state. This method is intuitive, flexible, but large computational complexity, and unable to classify new data. Aiming at the disadvantage of this algorithm is improved and applied to image classification, and other methods of comparison and analysis. The main research work of this paper includes the following aspects:
(1) introduces the related theory of image classification, semi supervised learning basic theory, the current research status at home and abroad, and the theoretical basis to the semi supervised graph based methods of study, research status and existing problems and difficulties in the method are reviewed, the main application of semi supervised learning is discussed, and emphatically introduces the local and global consistency based algorithm.
(2) the image presents a semi supervised classification method based on graph method, the method of similarity measure matrix diagram is improved, using a more accurate reflection of the sample geodesic topological structure of distance matrix of similarity measure, and using the compound nuclear strategy, combined with spectral information and the spatial information of the image, so that the algorithm improves the performance of the classification. The experimental results show that using this algorithm compared with the original algorithm to get better classification performance.
(3) to solve the calculation of semi supervised classification algorithm based on graph complexity is relatively high and the new data to the classification problem. This paper proposes a K means algorithm and graph method based on the combination of classification algorithm, using the labeled sample label information, to obtain more labeled information by K means method to reduce the number of iteration method based on iterative process, thus reducing the computational complexity of the algorithm graph method; final class center to solve the classification algorithm based on graph cannot be classified by the new data, enhance its expandability to new data classification; through the experiment analysis of the parameters and find out the optimal range of parameters. The experimental results show that the proposed algorithm in computational efficiency and classification accuracy can be improved significantly.

【学位授予单位】:陕西师范大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 佘锋;王小玲;;基于半监督学习的网络流量分类[J];计算机工程;2009年12期

2 梁吉业;高嘉伟;常瑜;;半监督学习研究进展[J];山西大学学报(自然科学版);2009年04期

3 汪春亮;伏玉琛;;一种针对非平衡数据的贝叶斯分类算法[J];计算机工程与科学;2010年07期

4 高恒振;万建伟;许可;钱林杰;;基于聚类核函数的最小二乘支持向量机高光谱图像半监督分类[J];信号处理;2011年02期

5 陈诗国;张道强;;半监督降维方法的实验比较[J];软件学报;2011年01期

6 李妍妍;李媛媛;叶世伟;;基于流形正则化的支持向量回归及应用[J];计算机应用;2007年08期

7 李永忠;王汝山;张念贵;王玉雷;;基于半监督模糊聚类的入侵检测技术[J];江苏科技大学学报(自然科学版);2010年04期

8 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期

9 丁磊,钱云涛;不同程度的监督机制在自动文本分类中的应用[J];计算机应用与软件;2004年06期

10 张晨光;李玉擰;;基于半监督学习的眉毛图像分割方法[J];计算机工程与应用;2009年21期

相关会议论文 前10条

1 陈劲松;邵芸;董庆;王长林;;全极化SAR数据信息提取研究[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年

2 谷方明;刘大有;王新颖;;基于半监督学习的加权支持向量域数据描述方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

3 杨源;马云龙;林鸿飞;;基于权重标准化SimRank与半监督学习的产品属性归类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 朱松豪;梁志伟;;用半监督学习方法实现图像检索[A];第二十九届中国控制会议论文集[C];2010年

5 邱慧宁;黄剑;陈羽;赖剑煌;;基于UDP的半监督学习及其在人脸识别的应用[A];第十四届全国图象图形学学术会议论文集[C];2008年

6 高炳浩;曲会霞;;基于遥感影像数据的土地动态监测[A];吉林省测绘学会2008年学术年会论文集(下)[C];2008年

7 毕锦烟;李巍华;;基于半监督模糊核聚类的齿轮箱早期故障检测方法[A];第九届全国振动理论及应用学术会议论文摘要集[C];2007年

8 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年

9 袁金国;;遥感影像监督分类方法的应用研究[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

10 马平燕;;基于ERDAS的土地利用监督分类探讨[A];江苏省测绘学会2007'学术年会论文集[C];2008年

相关重要报纸文章 前5条

1 徐海;唐山银监分局五项措施力促农信社贷款规范管理[N];金融时报;2006年

2 李正法;提速提速再提速[N];中国国门时报;2002年

3 李正法;我省构筑出口果蔬菜安全网[N];江苏经济报;2002年

4 李正法;我省检验检疫为加快通关全力提速[N];江苏经济报;2002年

5 记者 李正法;江苏建设出口果蔬菜安全网[N];中国国门时报(中国出入境检验疫报);2002年

相关博士学位论文 前10条

1 孔怡青;半监督学习及其应用研究[D];江南大学;2009年

2 王娇;多视图的半监督学习研究[D];北京交通大学;2010年

3 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年

4 徐雪;样本的几何信息在半监督学习中的应用研究[D];中国科学技术大学;2010年

5 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年

6 任广波;基于半监督学习的遥感影像分类技术研究[D];中国海洋大学;2010年

7 桂杰;基于图的半监督学习和维数约简方法及其应用研究[D];中国科学技术大学;2010年

8 刘志刚;支撑向量机在光谱遥感影像分类中的若干问题研究[D];武汉大学;2004年

9 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年

10 赵志凯;半监督学习及其在煤矿瓦斯安全信息处理中的应用研究[D];中国矿业大学;2012年

相关硕士学位论文 前10条

1 杨伟;基于半监督学习的遥感影像分类[D];上海交通大学;2010年

2 李亚娥;基于图的半监督分类算法研究[D];陕西师范大学;2012年

3 许震;基于KL距离的半监督分类算法[D];复旦大学;2010年

4 黄荣清;基于稀疏高斯过程回归的半监督分类的序贯训练方法[D];华东师范大学;2012年

5 陈新勇;基于核策略的半监督学习方法研究[D];河北大学;2010年

6 黄明明;半监督学习方法研究及在警用平台中的应用[D];大连理工大学;2010年

7 冯元佶;基于图的半监督学习的改进研究[D];湘潭大学;2010年

8 余养强;半监督学习若干问题的研究[D];福建师范大学;2010年

9 刘伟涛;半监督学习方法及应用研究[D];山东大学;2011年

10 杨伟;半监督学习方法研究[D];国防科学技术大学;2011年



本文编号:1468202

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1468202.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cfe3a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com