基于PageRank和对象关系的聚类算法研究
本文关键词:基于PageRank和对象关系的聚类算法研究
【摘要】:对聚类算法的研究已经有很长时间的历史,但是当前许多聚类算法对非凸形簇或者无法有效判别中心点的簇的聚类结果并不理想。另外,很多算法对噪声点和离群点比较敏感,这也会导致聚类效果的不理想。为了改善这些问题,我们提出了一个基于PageRank和对象关系且效果显著的聚类算法——K-PRSCAN。根据全局的对象关系,PageRank算法会评估待聚类的每个对象的重要程度。K-PRSCAN算法通过基于全局角度以及局部角度对数据集进行聚类,可以有效的识别球形簇和非球形簇,并可以将数据集拆分成指定的k个簇或者接近k个簇。同时由于在K-PRSCAN算法中噪声点和离群点的重要程度很小,它们的副作用也被较大地削弱。在本文中K-PRSCAN算法和多个常用的聚类算法在聚类效果和时间这两个维度上进行了比较,结果表明K-PRSCAN算法的表现要更好。
【关键词】:聚类 PageRank 二分查找 数据挖掘
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要3-4
- Abstract4-7
- 第一章 绪论7-14
- 1.1 研究背景与意义7
- 1.2 常见聚类算法概述7-11
- 1.3 PageRank算法概述11-12
- 1.4 论文内容与撰写安排12-14
- 第二章 研究基础14-20
- 2.1 PageRank算法的基本原理14-17
- 2.2 二分查找算法的基本原理17-19
- 2.3 本章小结19-20
- 第三章 PRSCAN算法原理与实现20-25
- 3.1 预处理原始数据集20-21
- 3.2 聚类21
- 3.3 PRSCAN算法描述与分析21-24
- 3.4 本章小结24-25
- 第四章 K-PRSCAN算法原理与实现25-30
- 4.1 PRSCAN相关定理25-28
- 4.1.1 定理 125-26
- 4.1.2 定理 226-27
- 4.1.3 定理 327-28
- 4.2 K-PRSCAN算法描述与分析28-29
- 4.3 本章小结29-30
- 第五章 实验结果与分析30-45
- 5.1 数据集介绍30-31
- 5.2 评价标准31-32
- 5.3 实现细节32
- 5.4 2 维数据集实现结果与分析32-39
- 5.5 Dataset DIM032实现结果与分析39-41
- 5.6 Dataset Digit实现结果与分析41-42
- 5.7 Dataset Race Walking实现结果与分析42-43
- 5.8 各个聚类算法运行时间的比较43
- 5.9 本章小结43-45
- 第六章 K-PRSCAN算法参数和离散点分析45-55
- 6.1 阻尼因子对K-PRSCAN算法的影响45-48
- 6.2 距离函数、相似性函数对K-PRSCAN算法的影响48-53
- 6.3 离散点对K-PRSCAN算法的影响53-54
- 6.4 本章小结54-55
- 第七章 总结与展望55-57
- 7.1 总结55-56
- 7.2 展望56-57
- 参考文献57-59
- 在学期间的研究成果59-60
- 致谢60
【相似文献】
中国期刊全文数据库 前10条
1 钟灵;章云;曾启杰;罗文良;;能见度与缺失分析的改进PageRank算法[J];微计算机信息;2009年15期
2 LIU Gui-mei;;An adaptive improvement on PageRank algorithm[J];Applied Mathematics:A Journal of Chinese Universities(Series B);2013年01期
3 史铭茗;;加权PageRank算法研究综述[J];软件导刊;2013年02期
4 刘悦;程学旗;李国杰;;提高PageRank算法效率的方法初探[J];计算机科学;2002年06期
5 张巍,李志蜀;基于PageRank算法的搜索引擎优化策略[J];计算机应用;2005年07期
6 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期
7 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
8 杨彬;康慕宁;;基于概念的权重PageRank改进算法[J];情报杂志;2006年11期
9 张丽;;PageRank算法的改进[J];科学技术与工程;2007年05期
10 孔娟;马亨冰;;PageRank算法的原理与解析[J];福建电脑;2007年01期
中国重要会议论文全文数据库 前10条
1 ;Key Nodes Mining in Transport Networks Based on PageRank Algorithm[A];2009中国控制与决策会议论文集(3)[C];2009年
2 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 李洋涛;李川;许超;雷晓;徐洪宇;唐常杰;杨宁;;空间评分:基于PageRank的信息网络可视化中节点重要性度量[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
9 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 ;Thinking with simple computer models:Modeling of social-economic systems[A];全国复杂系统研究论坛论文集(一)[C];2005年
中国硕士学位论文全文数据库 前10条
1 何逍;复杂网络的可视化显示[D];电子科技大学;2015年
2 李金圻;基于Hadoop的微博舆情分析[D];北京邮电大学;2015年
3 孙乐天;基于PageRank和对象关系的聚类算法研究[D];兰州大学;2016年
4 蔡建超;基于PageRank算法的搜索引擎优化研究[D];江南大学;2008年
5 邵晶晶;基于PageRank排序算法改进的若干研究[D];华中师范大学;2009年
6 王磊;PageRank的算法改进[D];上海交通大学;2009年
7 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年
8 姜sバ,
本文编号:1068505
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1068505.html