移动时间势能聚类算法的研究与应用
发布时间:2021-03-24 17:04
2016年Yonggang Lu等人提出了一种移动时间层次聚类算法TTHC(Travel-Time based Hierarchical Clustering)。TTHC算法根据对数据点势能的分析,采用全新的以移动时间为基础的相似性度量,能够获得更佳的聚类效果和聚类精度。但是TTHC算法也有着一些问题:TTHC算法得事先人工设置类簇个数,并且TTHC算法在给数据点分配类别的时候只根据数据点与数据点的相似度,TTHC算法没有考虑到数据点的势能和数据点到其父节点的距离的影响;TTHC算法不能对数据集里的噪声数据作出识别,噪声数据容易干扰聚类结果,以上问题限制了TTHC算法的应用。本文改进了TTHC算法的以上问题,然后把改进之后的ACTT算法和APCTT算法运用到微博文本聚类里。本文详细内容主要有如下几方面:(1)针对TTHC算法人工设置类簇中心个数且在给数据点分配类别的时候产生问题,提出了一种自动确定聚类中心的移动时间势能聚类算法(ACTT:Automatically Clustering based on Travel-Time)。ACTT算法先是计算数据点的势能和数据点之间的相似度,然...
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
势能分布示例
表示互动的微博转发微博的时候,之前的转发过的用户的微博ID以及//@标识符都会出现一遍
图 5-2 表示互动的微博转发微博的时候,之前的转发过的用户的微博 ID 以及//@标识符都会出现一遍。这容对于微博本身内容的表达也不具实际意义,因此应该删去这些内容。如图 5-3 所微博。
【参考文献】:
期刊论文
[1]基于Chameleon聚类分析的多错误定位方法[J]. 曹鹤玲,姜淑娟. 电子学报. 2017(02)
[2]基于开放网络知识的信息检索与数据挖掘[J]. 王元卓,贾岩涛,刘大伟,靳小龙,程学旗. 计算机研究与发展. 2015(02)
[3]蛋白质相互作用网络的蜂群信息流聚类模型与算法[J]. 雷秀娟,田建芳. 计算机学报. 2012(01)
[4]基于改进CURE聚类算法的无监督异常检测方法[J]. 周亚建,徐晨,李继国. 通信学报. 2010(07)
[5]基于权重的Jaccard相似度度量的实体识别方法[J]. 潘磊,雷钰丽,王崇骏,谢俊元. 北京交通大学学报. 2009(06)
[6]几个多面体网格剖分问题的NP难度证明[J]. 田延军,邓俊辉. 软件学报. 2008(04)
[7]面向海量数据的数据一致性研究[J]. 周婧,王意洁,阮炜,李思昆. 计算机科学. 2006(04)
[8]面向信息检索的自适应中文分词系统[J]. 曹勇刚,曹羽中,金茂忠,刘超. 软件学报. 2006(03)
[9]中文停用词表的自动选取[J]. 顾益军,樊孝忠,王建华,汪涛,黄维金. 北京理工大学学报. 2005(04)
[10]基于社会网络分析的产业集群建模及实证检验[J]. 王霄宁. 系统工程. 2005(03)
博士论文
[1]聚类分析中的相似性度量及其应用研究[D]. 白雪.北京交通大学 2012
[2]基因表达数据聚类分析算法研究和应用[D]. 杨春梅.天津大学 2006
硕士论文
[1]基于蛋白质相互作用网络及聚类算法的蛋白质功能预测方法研究[D]. 蔡娟.中南大学 2012
[2]聚类分析算法CLIQUE的改进及应用[D]. 陈朝华.中南大学 2009
本文编号:3098068
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
势能分布示例
表示互动的微博转发微博的时候,之前的转发过的用户的微博ID以及//@标识符都会出现一遍
图 5-2 表示互动的微博转发微博的时候,之前的转发过的用户的微博 ID 以及//@标识符都会出现一遍。这容对于微博本身内容的表达也不具实际意义,因此应该删去这些内容。如图 5-3 所微博。
【参考文献】:
期刊论文
[1]基于Chameleon聚类分析的多错误定位方法[J]. 曹鹤玲,姜淑娟. 电子学报. 2017(02)
[2]基于开放网络知识的信息检索与数据挖掘[J]. 王元卓,贾岩涛,刘大伟,靳小龙,程学旗. 计算机研究与发展. 2015(02)
[3]蛋白质相互作用网络的蜂群信息流聚类模型与算法[J]. 雷秀娟,田建芳. 计算机学报. 2012(01)
[4]基于改进CURE聚类算法的无监督异常检测方法[J]. 周亚建,徐晨,李继国. 通信学报. 2010(07)
[5]基于权重的Jaccard相似度度量的实体识别方法[J]. 潘磊,雷钰丽,王崇骏,谢俊元. 北京交通大学学报. 2009(06)
[6]几个多面体网格剖分问题的NP难度证明[J]. 田延军,邓俊辉. 软件学报. 2008(04)
[7]面向海量数据的数据一致性研究[J]. 周婧,王意洁,阮炜,李思昆. 计算机科学. 2006(04)
[8]面向信息检索的自适应中文分词系统[J]. 曹勇刚,曹羽中,金茂忠,刘超. 软件学报. 2006(03)
[9]中文停用词表的自动选取[J]. 顾益军,樊孝忠,王建华,汪涛,黄维金. 北京理工大学学报. 2005(04)
[10]基于社会网络分析的产业集群建模及实证检验[J]. 王霄宁. 系统工程. 2005(03)
博士论文
[1]聚类分析中的相似性度量及其应用研究[D]. 白雪.北京交通大学 2012
[2]基因表达数据聚类分析算法研究和应用[D]. 杨春梅.天津大学 2006
硕士论文
[1]基于蛋白质相互作用网络及聚类算法的蛋白质功能预测方法研究[D]. 蔡娟.中南大学 2012
[2]聚类分析算法CLIQUE的改进及应用[D]. 陈朝华.中南大学 2009
本文编号:3098068
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3098068.html