当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向特殊主题的排序与检索算法研究

发布时间:2019-08-05 16:10
【摘要】:在Internet高速发展的时代中,人们通过通用搜索引擎的帮助从浩瀚的信息海洋中寻找自己需要的信息,但通用搜索引擎因为本身涵盖的信息过于广泛而导致了人们往往不能迅速准确的搜索到需要的信息,针对这种情况主题搜索引擎诞生了。主题搜索引擎的专业性和抗干扰性使得检索准确率大大提升。随着网络信息多样化发展,常见的主题搜索有:科技文档搜索、电影资料搜索、数码时尚搜索、书籍期刊搜索、新闻搜索等。但没有一种主题搜索引擎技术能适用于所有的主题领域,有些主题领域具有一些与上述主题领域不同的特点,例如药物商品搜索、职位信息搜索等,这类主题领域的信息同时具有文档结构固定、多词同义现象严重、查询词在文档中出现少等特点。对于这类特殊主题领域,普通检索技术往往不能获得良好的检索效果。本文主要工作即针对这类特殊主题搜索引擎的排序、检索与性能优化算法展开深入研究,主要工作有: (1)提出了一种能更好的适应特殊主题领域的SPF-PR(Specifically Focused PageRank)网页排序算法。PageRank算法是基于超链接分析技术的页面排序算法,随着网页链接结构的复杂程度不断增加,PageRank算法为了适应具体的不同应用需求还需要不断改进和完善。本文在传统PagerRank算法的基础上提出了SPF-PR算法。SPF-PR算法采用了超链接锚文本与领域向量之间的相似度来控制传统PageRank算法的主题漂移现象,比传统PageRank算法具有更高的检索性能。 (2)针对特殊主题领域的文档特点设计了SEB-VSM(Seed Extension Based VSM)检索模型。目前多数搜索引擎采用的VSM (Vector Space Model)检索模型并不适用于某些特殊领域的检索,本文在VSM检索模型的基础上设计了SEB-VSM检索模型来提高特殊主题搜索的检索性能,解决了VSM检索模型不适用于特殊主题领域检索的问题。 (3)设计了一种基于Lingo聚类算法的SEB-VSM检索模型优化方案,包括特征降维与相似度优化。基于Lingo聚类的特征降维技术降低了文档向量的维度,提高了相似度计算的执行效率,降低噪音数据对相似度计算的影响;基于Lingo聚类算法的相似度优化,减小相似度计算的误差。经实验证明基于Lingo聚类的特征降维与相似度优化能有效的提高SEB-VSM检索模型的性能。 最后应用上述改进与优化算法,设计了一个面向特殊主题的搜索引擎系统,采集了大量网络数据进行测试,实验证明上述改进能在本文研究的特殊主题领域中有效的提高检索性能,在实际应用中具有较高的实用价值。
【图文】:

面向特殊主题的排序与检索算法研究


[9],那么文档集合的向量空间模型矩阵表示如图2.2所示。图 2.2 文档集合的向量空间模型设文档集合中有文档 ( )1 2, , ,i i i i nD w w … w和文档 ( )1 2, , ,j j j jnD w w … w,为了度量Di与Dj的相似程度,向量空间理论提出了“距离”的概念,距离是指两个向量空间之间的数学差距,距离用( ,)i jsim d d 表示,两个文档越相似则相似度越高。问题的关键就在于如何计算两个向量空间之间的相似度,常用的相似度计算公式有内积函数、Jaccard系数、余弦距离函数,其中文献[10]的实验编码余弦距离公式是评测效果最好的相似度计算公式。设文档di和dj向量为:1 2( , , , )i i i ind = t t … t,1 2( , , )j j j jnd = t t … t,余弦距离如公式(2.1)所示:12 21 1( , )mki kjki jm mki kjk kt tsim d dt t== == ∑∑ ∑公式(2.1)通过相似度的公式化计算

面向特殊主题的排序与检索算法研究


15图2.8 索引器工作原理首先,Lucene通过不同的解析器来解析不同类型的文档,解析得到的结果为普通文本,再通过Lucene的分词器把普通文本切割成能够建立索引的词项(Term),并计算词的TD与DF信息,再把这些信息写入索引文件中。Lucene索引的存储结构是由多个段(Segment)构成,Segment再由多个文档(Document)构成,,Document再由多个域(Field)构成,Field再由多个Term构成
【学位授予单位】:江西理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【参考文献】

相关期刊论文 前7条

1 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期

2 王钟斐;王彪;;基于锚文本相似度的PageRank改进算法[J];计算机工程;2010年24期

3 李绍华;高文宇;;搜索引擎页面排序算法研究综述[J];计算机应用研究;2007年06期

4 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期

5 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[J];中文信息学报;2006年03期

6 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期

7 彭松行;;基于描述优先算法的Web搜索结果聚类系统研究[J];心智与计算;2010年04期

相关硕士学位论文 前10条

1 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年

2 翁金象;中文文本分类研究[D];山东大学;2007年

3 张建辉;K-means聚类算法研究及应用[D];武汉理工大学;2007年

4 吴虎子;中文网页获取及自动分类技术研究[D];武汉理工大学;2007年

5 尹辉;基于Nutch的搜索系统的研究[D];电子科技大学;2008年

6 胡长春;基于Lucene的中文自然语言搜索引擎[D];上海交通大学;2009年

7 邵晶晶;基于PageRank排序算法改进的若干研究[D];华中师范大学;2009年

8 余静;基于Nutch的面向特定主题的爬虫研究[D];辽宁工程技术大学;2008年

9 李新友;信息检索中的查询扩展技术研究[D];广西师范大学;2010年

10 刘先明;基于链接分析的PageRank排序算法的改进研究[D];湖北工业大学;2010年



本文编号:2523218

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2523218.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b7b1c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com