基于K-means聚类算法和信息熵的页面排序算法研究
发布时间:2022-10-22 17:50
针对经典的PageRank算法存在的偏重历史网页、主题漂移、平分网页链接权重等缺陷,引入了向量空间模型和信息论中的信息熵,提出一种改进的PRKE算法。该算法用表征网页特征的关键词构成的向量来表示网页,用关键词在网页中所占的权重作为向量中各个分量的权值;对已存在的网页采用K-means聚类算法进行聚类,以信息熵的形式表征各个簇的权值,完成对网页的宏观排序;融入了时间因子和主题相关度等参数,完成对网页的微观排序。实验结果表明,改进的PRKE算法相对于经典的PageRank算法在首页命中率、检索准确性等方面获得了较大的提高。
【文章页数】:5 页
【部分图文】:
图1聚类簇构建决策树架构
图2页面反向链接
图3PRKE算法与经典PageRank算法首页命中率比较
【参考文献】:
期刊论文
[1]PageRank算法的分析及其改进[J]. 王德广,周志刚,梁旭. 计算机工程. 2010(22)
[2]改进的非平均传递权值PageRank算法[J]. 王春花,朱俊平. 计算机工程与设计. 2010(10)
[3]利用蚁群算法对PageRank算法的改进[J]. 丁岳伟,郭辉. 计算机应用. 2009(10)
[4]Web文本分类中特征选择的研究[J]. 石芙芙,董祥军,陈修宽. 山东轻工业学院学报(自然科学版). 2009(03)
[5]基于余弦向量法的Web数据并行抓掘系统[J]. 徐文杰,陈庆奎. 计算机工程. 2009(07)
[6]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
本文编号:3696578
【文章页数】:5 页
【部分图文】:
图1聚类簇构建决策树架构
图2页面反向链接
图3PRKE算法与经典PageRank算法首页命中率比较
【参考文献】:
期刊论文
[1]PageRank算法的分析及其改进[J]. 王德广,周志刚,梁旭. 计算机工程. 2010(22)
[2]改进的非平均传递权值PageRank算法[J]. 王春花,朱俊平. 计算机工程与设计. 2010(10)
[3]利用蚁群算法对PageRank算法的改进[J]. 丁岳伟,郭辉. 计算机应用. 2009(10)
[4]Web文本分类中特征选择的研究[J]. 石芙芙,董祥军,陈修宽. 山东轻工业学院学报(自然科学版). 2009(03)
[5]基于余弦向量法的Web数据并行抓掘系统[J]. 徐文杰,陈庆奎. 计算机工程. 2009(07)
[6]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
本文编号:3696578
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3696578.html