Web数据挖掘中PageRank和K m eans算法的改进研究
发布时间:2021-03-30 13:54
自20世纪90年代以来,互联网和万维网得到了迅猛发展,其功能和业务也在不断扩展和增加,这使得它们成为21世纪用户获取资源、数据和信息的主要场所,这也使得Web数据挖掘的任务迫在眉睫。当前,kmeans算法是最经典和使用最广泛的划分聚类算法,而PageRank算法是Web结构挖掘中使用最广泛的算法。基于此,研究了这两种算法的原理,并提出了两种算法的改进方法。传统kmeans算法选择初始聚类中心的方法是随机数法,这种方法易产生聚类结果陷入局部最优解和聚类精度低的问题,而且聚类结果受孤立点的影响很大。为了解决这一问题,提出了一种基于密度标准差的kmeans改进算法。首先计算数据集样本的平均值和标准差,接着计算每个数据点的密度分布函数值,然后计算样本的平均密度和密度标准差,若某一数据点的密度分布函数值小于样本的密度标准差,则划分为孤立点;搜索密度分布函数值数组中的最大值,那么最大值对应的样本点即为初始聚类中心,并将以初始聚类中心为原点,以样本平均值为半径的圆内各点的密度函数值赋值为0,如此重复,直到找到k个初始聚类中心。传统Pa...
【文章来源】:兰州交通大学甘肃省
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
Web数据挖掘的分类
图 3.1 数据集集如图 3.1 所示,共有 8 个数据点,聚类成 2 类。选取 B 和,计算其它数据点到 B 和 D 的距离,如表 3.1 所示。根据比A,D,F,H 为一个聚类,如图 3.2 所示。B,C,E,G 数据点组成D,F,H 数据点组成的聚类中,2 为聚类中心。表 3.1 数据点到初始聚类中心的距离聚类中心 B 聚类中心 D 0.81 0.63 0.00 0.36 0.50 0.71 0.36 0.00 1.50 1.52 1.89 1.77 2.02 2.06 2.62 2.58
图 3.1 数据集集如图 3.1 所示,共有 8 个数据点,聚类成 2 类。选取 B 和,计算其它数据点到 B 和 D 的距离,如表 3.1 所示。根据比A,D,F,H 为一个聚类,如图 3.2 所示。B,C,E,G 数据点组成D,F,H 数据点组成的聚类中,2 为聚类中心。表 3.1 数据点到初始聚类中心的距离聚类中心 B 聚类中心 D 0.81 0.63 0.00 0.36 0.50 0.71 0.36 0.00 1.50 1.52 1.89 1.77 2.02 2.06 2.62 2.58
【参考文献】:
期刊论文
[1]基于PageRank的多维度微博用户影响力度量[J]. 罗芳,徐阳,蒲秋梅,邱奇志. 计算机应用研究. 2020(05)
[2]基于PageRank改进的文献排名算法研究[J]. 王丹. 计算机时代. 2019(01)
[3]结合初始中心优化和特征加权的K-Means聚类算法[J]. 王宏杰,师彦文. 计算机科学. 2017(S2)
[4]类簇数目和初始中心点自确定的K-means算法[J]. 贾瑞玉,李玉功. 计算机工程与应用. 2018(07)
[5]基于用户兴趣与主题相关的PageRank算法改进研究[J]. 王冲,纪仙慧. 计算机科学. 2016(03)
[6]基于主题相关性和时间因素的改进PageRank算法[J]. 耿瑞,李石君,尹为民. 微电子学与计算机. 2015(08)
[7]基于平均密度优化初始聚类中心的k-means算法[J]. 邢长征,谷浩. 计算机工程与应用. 2014(20)
[8]用户差别化和主题敏感的PageRank算法[J]. 马海波,杨楠,于新兴. 大连交通大学学报. 2013(04)
[9]基于重启型随机游走模型的图上关键字搜索[J]. 蒋凯,关佶红. 计算机工程. 2011(03)
[10]PageRank算法的分析及其改进[J]. 王德广,周志刚,梁旭. 计算机工程. 2010(22)
博士论文
[1]Web结构挖掘与高维数据挖掘研究[D]. 于红.大连理工大学 2012
[2]数据挖掘中聚类方法的研究[D]. 王莉.天津大学 2004
硕士论文
[1]数据挖掘分类算法的改进研究[D]. 陈洁.南京邮电大学 2018
[2]基于python的Web数据挖掘技术研究与实现[D]. 刘熠.长江大学 2018
[3]基于PageRank算法的Web数据挖掘的研究[D]. 郑普亨.天津理工大学 2017
[4]PageRank算法应用在文献检索排序中的研究及改进[D]. 汪志伟.南昌大学 2016
[5]基于改进PageRank算法的网页排序问题研究[D]. 周秋丽.哈尔滨理工大学 2016
[6]K-means聚类方法的改进及其应用[D]. 李荟娆.东北农业大学 2014
[7]基于改进PageRank算法和用户兴趣的个性化搜索研究[D]. 张梅芳.河北工业大学 2014
[8]基于密度的分布式聚类算法的研究[D]. 毛锐.吉林大学 2012
[9]Web结构挖掘算法的改进研究[D]. 傅晓波.北京邮电大学 2012
[10]Web结构挖掘中PageRank算法研究[D]. 范聪贤.苏州大学 2009
本文编号:3109620
【文章来源】:兰州交通大学甘肃省
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
Web数据挖掘的分类
图 3.1 数据集集如图 3.1 所示,共有 8 个数据点,聚类成 2 类。选取 B 和,计算其它数据点到 B 和 D 的距离,如表 3.1 所示。根据比A,D,F,H 为一个聚类,如图 3.2 所示。B,C,E,G 数据点组成D,F,H 数据点组成的聚类中,2 为聚类中心。表 3.1 数据点到初始聚类中心的距离聚类中心 B 聚类中心 D 0.81 0.63 0.00 0.36 0.50 0.71 0.36 0.00 1.50 1.52 1.89 1.77 2.02 2.06 2.62 2.58
图 3.1 数据集集如图 3.1 所示,共有 8 个数据点,聚类成 2 类。选取 B 和,计算其它数据点到 B 和 D 的距离,如表 3.1 所示。根据比A,D,F,H 为一个聚类,如图 3.2 所示。B,C,E,G 数据点组成D,F,H 数据点组成的聚类中,2 为聚类中心。表 3.1 数据点到初始聚类中心的距离聚类中心 B 聚类中心 D 0.81 0.63 0.00 0.36 0.50 0.71 0.36 0.00 1.50 1.52 1.89 1.77 2.02 2.06 2.62 2.58
【参考文献】:
期刊论文
[1]基于PageRank的多维度微博用户影响力度量[J]. 罗芳,徐阳,蒲秋梅,邱奇志. 计算机应用研究. 2020(05)
[2]基于PageRank改进的文献排名算法研究[J]. 王丹. 计算机时代. 2019(01)
[3]结合初始中心优化和特征加权的K-Means聚类算法[J]. 王宏杰,师彦文. 计算机科学. 2017(S2)
[4]类簇数目和初始中心点自确定的K-means算法[J]. 贾瑞玉,李玉功. 计算机工程与应用. 2018(07)
[5]基于用户兴趣与主题相关的PageRank算法改进研究[J]. 王冲,纪仙慧. 计算机科学. 2016(03)
[6]基于主题相关性和时间因素的改进PageRank算法[J]. 耿瑞,李石君,尹为民. 微电子学与计算机. 2015(08)
[7]基于平均密度优化初始聚类中心的k-means算法[J]. 邢长征,谷浩. 计算机工程与应用. 2014(20)
[8]用户差别化和主题敏感的PageRank算法[J]. 马海波,杨楠,于新兴. 大连交通大学学报. 2013(04)
[9]基于重启型随机游走模型的图上关键字搜索[J]. 蒋凯,关佶红. 计算机工程. 2011(03)
[10]PageRank算法的分析及其改进[J]. 王德广,周志刚,梁旭. 计算机工程. 2010(22)
博士论文
[1]Web结构挖掘与高维数据挖掘研究[D]. 于红.大连理工大学 2012
[2]数据挖掘中聚类方法的研究[D]. 王莉.天津大学 2004
硕士论文
[1]数据挖掘分类算法的改进研究[D]. 陈洁.南京邮电大学 2018
[2]基于python的Web数据挖掘技术研究与实现[D]. 刘熠.长江大学 2018
[3]基于PageRank算法的Web数据挖掘的研究[D]. 郑普亨.天津理工大学 2017
[4]PageRank算法应用在文献检索排序中的研究及改进[D]. 汪志伟.南昌大学 2016
[5]基于改进PageRank算法的网页排序问题研究[D]. 周秋丽.哈尔滨理工大学 2016
[6]K-means聚类方法的改进及其应用[D]. 李荟娆.东北农业大学 2014
[7]基于改进PageRank算法和用户兴趣的个性化搜索研究[D]. 张梅芳.河北工业大学 2014
[8]基于密度的分布式聚类算法的研究[D]. 毛锐.吉林大学 2012
[9]Web结构挖掘算法的改进研究[D]. 傅晓波.北京邮电大学 2012
[10]Web结构挖掘中PageRank算法研究[D]. 范聪贤.苏州大学 2009
本文编号:3109620
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3109620.html