基于迁移学习的模糊聚类算法研究
发布时间:2021-10-11 08:41
在数据挖掘领域,聚类算法因其具有简单、灵活、高效等优势,被广泛用于各种数据挖掘任务中。但当聚类数据不足时,传统聚类算法很难取得较好的聚类结果。随着机器学习技术的发展,迁移学习方法已被成功用于解决数据不足导致的训练效果差的问题。该方法通过从训练效果好的模型提取信息,应用到目标数据中,以提升目标数据的训练效果。借鉴迁移学习的思想,迁移聚类方法被提出用于解决相关数据聚类的问题。迁移聚类就是将源域数据的知识加入到目标域数据的聚类过程中,以获得目标域数据的更好分割。围绕迁移聚类,本文对现有的集中式聚类和分布式协同聚类方法进行改进,以提升相关算法的聚类效果。主要的创新性工作和成果如下。1.改进集中式聚类方法,提出面向高维数据的基于迁移学习的属性熵加权模糊聚类算法(TEWFCM)和面向非线性数据的基于迁移学习的核模糊聚类算法(TKFCM)。应用迁移学习技术,将源域数据的类中心及维度权重迁移到目标域数据中,辅助目标域数据的聚类。实验测试结果表明迁移技术可以有效地提升属性熵加权模糊聚类算法(EWFCM)和核模糊聚类算法(KFCM)的聚类效果。2.改进分布式协同聚类方法,提出基于迁移学习的分布式协同模糊c...
【文章来源】:济南大学山东省
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
研究内容及方案
济南大学硕士学位论文15据。报文数据是当前流行的真实高维数据,用来检测算法对大规模数据的处理能力。一般是根据20种确定的主题,将20000个报文分为20类。再根据[57]方法去掉停止词、语气词和出现频率多的词,通过tf·idf标准[58]将剩余的词语设置为数据维度。而本文使用的四种报文数据子集中,每个数据子集的不同类的主题都是相异的。0001000110001011001001001010011000001111011001001001001000100011000001100100001011011101010011001010(a)(b)图2.1人工数据网络拓扑图及邻接矩阵。(a)网络拓扑图;(b)邻接矩阵测试中使用的模糊指数α均设为2.0,正则项调节参数的范围是0.01~1.01,学习因子的调节范围是0.001~100,算法阈值设为10-8。测试语言为c语言,测试机器为使用3.1GH因特尔处理器和32G内存的电脑。2.6.2评价指标本文采用分类精确度(CR)、归一化互信息(NMI)两种评价指标来评价聚类算法的效果,并采用程序迭代次数(IN)来衡量聚类算法的效率。下面是三种评价指标的定义。分类精确度是用来衡量聚类结果好坏的指标[59],其定义为:1KkknCRN(2.28)其中nk表示第k个类中被正确分类的数据点的数量,N表示所有数据点的个数。归一化互信息是用来测量两个分布之间相关性的统计测度[58]。其定义为:11(,)(,)log()()(,)()()IJijPijPijPiPjNMIRQHRHQ(2.29)
济南大学硕士学位论文21子的范围设为0~100,算法阈值设为10-8,具体的实验参数如表3.1所示。本节使用的数据分为两部分,分别是源域数据(样本名:Cluster600,数量:600,维度:4,类:3)和目标域数据(样本名:Cluster60,数量:60,维度:4,类:3)。具体的数据分布如图3.2、图3.3所示。表3.1测试数据集及参数设置实验设置测试数据人造数据模糊系数=2正则项调节参数0.011.01D学习参数1、20100tT算法阈值810图3.2源域数据分布
【参考文献】:
期刊论文
[1]自动确定聚类个数的模糊聚类算法[J]. 陈海鹏,申铉京,龙建武,吕颖达. 电子学报. 2017(03)
[2]k-DmeansWM:一种基于P2P网络的分布式聚类算法[J]. 李榴,唐九阳,葛斌,肖卫东,汤大权. 计算机科学. 2010(01)
[3]一种隶属关系不确定的可能性模糊聚类方法[J]. 陈健美,陆虎,宋余庆,宋顺林,徐景,谢从华,倪巍伟. 计算机研究与发展. 2008(09)
[4]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
[5]核函数方法及其模型选择[J]. 王华忠,俞金寿. 江南大学学报. 2006(04)
[6]特征选择方法综述[J]. 王娟,慈林林,姚康泽. 计算机工程与科学. 2005(12)
[7]不确定性人工智能[J]. 李德毅,刘常昱,杜鹢,韩旭. 软件学报. 2004(11)
[8]基于划分的模糊聚类算法[J]. 张敏,于剑. 软件学报. 2004(06)
[9]核聚类算法[J]. 张莉,周伟达,焦李成. 计算机学报. 2002(06)
本文编号:3430177
【文章来源】:济南大学山东省
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
研究内容及方案
济南大学硕士学位论文15据。报文数据是当前流行的真实高维数据,用来检测算法对大规模数据的处理能力。一般是根据20种确定的主题,将20000个报文分为20类。再根据[57]方法去掉停止词、语气词和出现频率多的词,通过tf·idf标准[58]将剩余的词语设置为数据维度。而本文使用的四种报文数据子集中,每个数据子集的不同类的主题都是相异的。0001000110001011001001001010011000001111011001001001001000100011000001100100001011011101010011001010(a)(b)图2.1人工数据网络拓扑图及邻接矩阵。(a)网络拓扑图;(b)邻接矩阵测试中使用的模糊指数α均设为2.0,正则项调节参数的范围是0.01~1.01,学习因子的调节范围是0.001~100,算法阈值设为10-8。测试语言为c语言,测试机器为使用3.1GH因特尔处理器和32G内存的电脑。2.6.2评价指标本文采用分类精确度(CR)、归一化互信息(NMI)两种评价指标来评价聚类算法的效果,并采用程序迭代次数(IN)来衡量聚类算法的效率。下面是三种评价指标的定义。分类精确度是用来衡量聚类结果好坏的指标[59],其定义为:1KkknCRN(2.28)其中nk表示第k个类中被正确分类的数据点的数量,N表示所有数据点的个数。归一化互信息是用来测量两个分布之间相关性的统计测度[58]。其定义为:11(,)(,)log()()(,)()()IJijPijPijPiPjNMIRQHRHQ(2.29)
济南大学硕士学位论文21子的范围设为0~100,算法阈值设为10-8,具体的实验参数如表3.1所示。本节使用的数据分为两部分,分别是源域数据(样本名:Cluster600,数量:600,维度:4,类:3)和目标域数据(样本名:Cluster60,数量:60,维度:4,类:3)。具体的数据分布如图3.2、图3.3所示。表3.1测试数据集及参数设置实验设置测试数据人造数据模糊系数=2正则项调节参数0.011.01D学习参数1、20100tT算法阈值810图3.2源域数据分布
【参考文献】:
期刊论文
[1]自动确定聚类个数的模糊聚类算法[J]. 陈海鹏,申铉京,龙建武,吕颖达. 电子学报. 2017(03)
[2]k-DmeansWM:一种基于P2P网络的分布式聚类算法[J]. 李榴,唐九阳,葛斌,肖卫东,汤大权. 计算机科学. 2010(01)
[3]一种隶属关系不确定的可能性模糊聚类方法[J]. 陈健美,陆虎,宋余庆,宋顺林,徐景,谢从华,倪巍伟. 计算机研究与发展. 2008(09)
[4]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
[5]核函数方法及其模型选择[J]. 王华忠,俞金寿. 江南大学学报. 2006(04)
[6]特征选择方法综述[J]. 王娟,慈林林,姚康泽. 计算机工程与科学. 2005(12)
[7]不确定性人工智能[J]. 李德毅,刘常昱,杜鹢,韩旭. 软件学报. 2004(11)
[8]基于划分的模糊聚类算法[J]. 张敏,于剑. 软件学报. 2004(06)
[9]核聚类算法[J]. 张莉,周伟达,焦李成. 计算机学报. 2002(06)
本文编号:3430177
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3430177.html