当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于最短路径策略的分层聚类方法研究

发布时间:2020-07-24 18:08
【摘要】:聚类是数据分析的一种基础操作。聚类算法由于聚类过程和结果形式的不同,分为划分聚类和分层聚类两大类。因为分层聚类算法使用树型结构表示结果,其包含的信息量更大,并且不需要用户提供任何参数,由此可见分层聚类算法具有一定的优势。但在实际应用中,由于分层聚类算法的过程是确定的,如果在算法执行过程中某一合并或分裂操作不当,就会导致错误的聚类结果,从而影响聚类的准确性。近几年,计算机界出现了一种解题的新思路,将目标问题转换为最短路径问题,再借助求解最短路径问题的思路求解目标问题。因此,本文借鉴了求解最短路径问题的思路对分层聚类算法进行了深入的研究。首先,分析现有的聚类算法,通过对分层聚类算法与划分聚类算法进行比较,剖析了分层聚类算法的优势和不足之处;并研究现有的路径搜索算法,分析搜索算法的优缺点。其次,为了解决分层聚类算法中不能回溯的问题,提出了一种基于最短路径策略的分层聚类算法(Shortest path hierarchical clustering algorithm,简称SPC)。其基本思想是首先将分层聚类问题转换为一个最短路径问题,然后通过A~*(A-Star,简称A~*)算法的搜索策略来求解该最短路径问题,进而达到对分层聚类问题的求解。通过理论分析和模拟实验,验证了SPC算法相对于DNA简约算法(DNA parsimony program,简称DNAPARS)在运行效率和准确性上都有提高,说明SPC算法具有一定的优越性。再次,由于当数据量较大时,SPC算法所需的运行时间比较长,针对此问题,提出了一种基于CUDA(Compute Unified Device Architecture,简称CUDA)加速的SPC算法(Shortest path hierarchical clustering algorithm based on CUDA accelerated,简称cudaSPC)。其主要的工作是利用GPU(Graphics Processing Unit,简称GPU)硬件并行地扩展多个节点。在模拟实验中,通过与SPC算法进行比较,结果表明cudaSPC算法在准确性不变的情况下,提高了算法的执行效率。最后,对全文进行了概括,并对将来的研究工作进行了展望。
【学位授予单位】:中国民航大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13

【参考文献】

相关期刊论文 前8条

1 牛新征;司伟钰;佘X;;基于进化聚类的动态网络社团发现[J];软件学报;2017年07期

2 余骞;彭智勇;洪亮;万言历;;基于用户邻域和主题的新颖性Web社区推荐方法[J];软件学报;2016年05期

3 熊壬浩;刘羽;;A*算法的改进及并行化[J];计算机应用;2015年07期

4 李建伏;赵玉成;贺怀清;;基于最大似然原理的分类属性数据分层聚类算法[J];计算机应用与软件;2015年03期

5 方滨兴;贾焰;韩毅;;社交网络分析核心科学问题、研究现状及未来展望[J];中国科学院院刊;2015年02期

6 李建伏;吴凤珍;赵玉成;;一种基于启发式的分层聚类[J];计算机应用与软件;2014年05期

7 方媛;车启凤;;数据挖掘之聚类算法综述[J];河西学院学报;2012年05期

8 龙真真;张策;刘飞裔;张正文;;一种改进的Chameleon算法[J];计算机工程;2009年20期

相关博士学位论文 前1条

1 李建伏;基于DNA序列的进化树构建算法的研究[D];哈尔滨工业大学;2008年

相关硕士学位论文 前4条

1 赵振国;向量空间中A*算法的优化及应用[D];哈尔滨理工大学;2016年

2 李大为;基于图规划和启发式搜索的一致性规划求解[D];吉林大学;2013年

3 段明秀;层次聚类算法的研究及应用[D];中南大学;2009年

4 张鑫;层次聚类算法的研究与应用[D];江西理工大学;2009年



本文编号:2769206

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2769206.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d289e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com