基于最小类间距的半监督聚类算法研究
本文关键词: 半监督学习 聚类 Single Linkage K-均值聚类 出处:《兰州大学》2017年硕士论文 论文类型:学位论文
【摘要】:半监督学习方法在数据挖掘研究领域内具有举足轻重的地位,这类方法能够在仅获取少量有效的有监督数据信息或观测数据类标签信息的基础上,更有效且具有目的性的对数据进行分析和挖掘。但目前对于半监督学习方法中研究比较成熟、应用较为广泛的多以半监督回归方法和半监督分类方法为主,半监督聚类方法相较而言研究的深度和广度都不够成熟。K-meansGuider方法是2010年李杉提出的一种结合了分类方法和K-means算法思想的基于分类的半监督聚类算法,其主要思想是在基于K-means方法聚类中心的搜索思想,利用半监督学习方法改进了聚类过程中有关类中心选取的过程,该方法将数据集中少部分含有类标签的数据作为有监督数据信息,并根据这些数据构造一个初始的粗分类器,将原始数据粗略分类,之后利用K-means聚类方法的思想进一步对初始粗分类结果进行分析、集成,相较于K-means的聚类结果的精确程度有了很大的改善,但其结果高度依赖算法初始设定的粗分类器,且算法时间效率不高。本文在K-meansGuider方法的基础上进行改进,结合层次聚类方法中最小类间距(Single Linkage)的思想及2014年Rodriguez和Laio提出的快速搜索聚类方法(FSC)中类簇合并的思想,提出了一种基于最小类间距(Single Linkage)的半监督聚类算法,该算法利用数据集中少量的有监督数据信息,将该部分数据划分为带有类标签的初始类,再根据最小类间距(Single Linkage)的思想将其余无监督的数据点聚入各个初始类中,其中设立阈值以避免初始类中的有监督数据信息不完整从而影响聚类效果的问题。本文以UCI数据库中的5组真实数据对提出的方法加以实现,并与传统K-means及K-meansGuider方法做对比,实验结果表明,本文改进的方法对于提高聚类效果有较为明显的效果。
[Abstract]:Semi-supervised learning methods play an important role in the field of data mining. These methods can obtain only a small amount of effective supervised data information or observational data class label information. It is more effective and purposeful to analyze and mine the data, but the research on semi-supervised learning methods is more mature at present, and the more widely used methods are semi-supervised regression method and semi-supervised classification method. Compared with the semi-supervised clustering method, the depth and breadth of the research are not mature. K-means Guider method is a classification-based semi-supervised clustering algorithm proposed by Li in 2010, which combines the classification method with K-means algorithm. The main idea is to improve the selection process of clustering centers in the process of clustering by using semi-supervised learning method, which is based on the search idea of clustering center of K-means method. In this method, a small number of data containing class labels in the data set are taken as supervised data information, and an initial coarse classifier is constructed according to these data, and the raw data is roughly classified. Then using K-means clustering method to further analyze the initial coarse classification results, integration, compared with K-means clustering results of the accuracy has a great improvement, but the results are highly dependent on the initial set of rough classifier algorithm. The algorithm is not efficient in time. Based on the K-means Guider method, this paper combines the idea of minimum class spacing single Linkage in hierarchical clustering method and the idea of cluster merging in Rodriguez and Laio's fast search clustering method in 2014. In this paper, a semi-supervised clustering algorithm based on the minimum class spacing single Linkageis proposed. The algorithm uses a small amount of supervised data information in the data set to divide the data into initial classes with class labels. The rest of the unsupervised data points are then clustered into the initial classes based on the idea of minimum class spacing single Linkage. In order to avoid the problem of incomplete supervised data information in the initial class, this paper uses five groups of real data in UCI database to implement the proposed method, and compares it with the traditional K-means and K-Means Guider methods. The experimental results show that the improved method has obvious effect on clustering.
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:C81
【相似文献】
相关会议论文 前5条
1 柳斌;李之棠;涂浩;;基于半监督学习的应用流分类方法[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
2 葛荐;马廷淮;;基于集成算法的半监督学习研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
3 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
4 ;Complete Dissection of the Genetic Basis of Heterosis in a Highly Heterotic Rice Hybrid Based on a Ultra-high Density Linkage Map[A];植物分子生物学与现代农业——全国植物生物学研讨会论文摘要集[C];2010年
5 谷方明;刘大有;王新颖;;基于半监督学习的加权支持向量域数据描述方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
相关博士学位论文 前10条
1 超木日力格;基于雅克比矩阵的软划分聚类算法分析[D];北京交通大学;2017年
2 高兵;基于密度的数据流聚类方法研究[D];哈尔滨工程大学;2014年
3 程爽;miRNA靶基因预测及其功能识别算法研究[D];哈尔滨工业大学;2016年
4 谭学敏;基于半监督学习的运动想象脑-机接口研究[D];重庆大学;2015年
5 孙博良;在线半监督学习理论、算法与应用研究[D];国防科学技术大学;2014年
6 徐雪;样本的几何信息在半监督学习中的应用研究[D];中国科学技术大学;2010年
7 孔怡青;半监督学习及其应用研究[D];江南大学;2009年
8 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
9 唐晓亮;基于神经网络的半监督学习方法研究[D];大连理工大学;2009年
10 余国先;高维数据上的半监督学习研究[D];华南理工大学;2013年
相关硕士学位论文 前10条
1 丁志婕;基于最小类间距的半监督聚类算法研究[D];兰州大学;2017年
2 郭亚锐;面向大规模数据的多视角K-means聚类算法的研究[D];郑州大学;2017年
3 曹晓锋;面向维度的高维聚类边界检测技术研究[D];郑州大学;2017年
4 邱雪营;基于图像视觉上下文的多元IB聚类算法[D];郑州大学;2017年
5 栗国保;基于MapReduce的分布式聚类算法的研究[D];江西理工大学;2017年
6 张灿龙;不确定DM-chameleon聚类算法在滑坡危险性预测的研究及应用[D];江西理工大学;2017年
7 李南;基于属性偏序结构理论的半监督学习方法研究[D];燕山大学;2015年
8 路同强;基于半监督学习的微博谣言检测研究[D];山东大学;2015年
9 杜俊;半监督学习及其在社交媒体分析中的应用[D];华北电力大学;2015年
10 王俊超;在线半监督学习尺度自适应鲁棒目标跟踪[D];湘潭大学;2015年
,本文编号:1551464
本文链接:https://www.wllwen.com/shekelunwen/shgj/1551464.html