基于主题相似度模型的TS-PageRank算法
发布时间:2018-05-15 07:32
本文选题:链接分析 + 主题相似度 ; 参考:《小型微型计算机系统》2007年03期
【摘要】:PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRank算法框架.只要选择不同的相似度计算模型,就可以得到不同的TS-PageRank算法,形成一个网页排序算法簇.理论分析和数值仿真实验表明,该算法在不需要额外文本信息,也不增加算法时空复杂度的情况下,就能极大地减少主题漂移现象,从而提高查询效率和质量.
[Abstract]:The PageRank algorithm is the core algorithm of the famous search engine Google, but there is the problem of topic drift, which leads to the existence of too many web pages which are independent of the query subject in the search results. Based on the analysis of the PageRank algorithm and its improved algorithm, a topic similarity model based on virtual document and a TS-PageRank algorithm framework based on topic similarity model are proposed. As long as we select different similarity calculation models, we can get different TS-PageRank algorithms and form a cluster of web page sorting algorithms. Theoretical analysis and numerical simulation experiments show that the algorithm can greatly reduce the topic drift phenomenon and improve the query efficiency and quality without the need of additional text information and the complexity of the algorithm.
【作者单位】: 浙江工业大学信息工程学院 浙江工业大学信息工程学院 浙江工业大学信息工程学院
【基金】:浙江省自然科学基金项目(Y105118)资助.
【分类号】:TP393.01
【参考文献】
相关期刊论文 前2条
1 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑;2001年04期
2 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期
【共引文献】
相关期刊论文 前10条
1 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
2 程军,刘斌中;数字图书馆海量文本全文检索系统[J];大学图书馆学报;2002年05期
3 王艳辉,吴斌,王柏;电信社群网络静态几何性质分析研究[J];复杂系统与复杂性科学;2005年02期
4 邱均平,张洋;网络信息计量学综述[J];高校图书馆工作;2005年01期
5 张春元,康耀红,王曙光,张莉;中文搜索引擎的缺陷与改进[J];海南大学学报(自然科学版);2004年01期
6 王继民,陈,
本文编号:1891557
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1891557.html