基于源网页主题相关性的锚文本相似度计算与利用
发布时间:2017-08-13 10:31
本文关键词:基于源网页主题相关性的锚文本相似度计算与利用
更多相关文章: 锚文本 PageRank 主题相关性 网页质量 信息检索
【摘要】:随着互联网时代的迅速崛起,接触甚至依赖互联网的人越来越多,搜索引擎成为人们日常工作生活中获取网络信息的重要工具。对于互联网上的海量信息,人们都希望能准确快速地从中找到想要的相关信息。传统的信息检索方法基于关键词和网页内容相似度的匹配,面对数以亿计且质量参差不齐的网页,单纯的以网页内容匹配程度来排序检索结果,早已不能适应当今的web检索。于是,人们研究的目光渐渐趋向网页的链接分析,以及超链接上的核心——锚文本信息。通常,源网页作者在引用一个目标网页的时候,会根据自己对目标网页的理解,总结出对目标网页的描述,即锚文本信息。所以,因锚文本同时具有网页的两个特性:链接性和文本性。源网页大多数情况下由不同的作者编写,不同的作者对同一目标网页会有不同的理解和认识,这在一定程度上增强了目标网页对应的锚文本信息的客观性。但同时,由于不同作者的理解认知程度不一样,使得这些锚文本信息的质量参差不齐。为了减少低质量锚文本信息对目标网页检索排名上的影响,本文研究并提出了基于源网页主题相关性的锚文本相似度计算方法,并在搜索引擎框架中加以利用。主要完成了以下工作:(1)分析常用经典链接分析算法极其研究现状,结合锚文本信息质量不同的特点,选取适合的改进方法,并提出了基于源网页主题相关性质量对来自不同源网页的锚文本信息赋予不同权重的方法,降低质量较低的锚文本信息对目标网页检索排名的影响。(2)分析流行的锚文本信息提取方法,将基于网页结构的锚文本扩展方法与基于链接结构的锚文本聚合方法相结合,利用基于扩展链接路径的方法提取锚文本信息,同时将(1)中计算得出的源网页主题相关性质量因素融合到锚文本权重计算中。(3)利用VSM向量空间模型计算锚文本与用户查询的相似度,分析源网页主题相关性因素对锚文本相似度计算的影响。(4)设计实现实验系统,抓取实验所需数据集并进行实验,通过分析实验结果验证方法的有效性。实验表明,本文提出的基于源网页主题相关性的锚文本相似度计算方法,能有效区分锚文本信息质量高低,弥补了低质量锚文本信息对目标网页在检索过程中排名的影响,对检索结果进行了优化。
【关键词】:锚文本 PageRank 主题相关性 网页质量 信息检索
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前1条
1 王钟斐;;一种改进的PageRank算法[J];计算机与数字工程;2011年06期
,本文编号:666843
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/666843.html