当前位置:主页 > 科技论文 > 搜索引擎论文 >

主题元搜索引擎排序算法研究

发布时间:2017-11-19 15:15

  本文关键词:主题元搜索引擎排序算法研究


  更多相关文章: 主题元搜索引擎 ICTCLAS2015 中文分词 Nutch 排序算法


【摘要】:主题搜索引擎的产生是针对某种具体的组织、行业的网络信息来构建的,这是一个能够使该组织、行业的搜索要求满足的搜索引擎。随着网络信息的多元化形成,没有任何一种主题搜索技术能应用到所有的主题信息领域,而主题元搜索引擎的出现很好地解决了这个现象。主题元搜索引擎将元搜索引擎和主题搜索引擎相结合,在提高查全率的同时又进一步提高了查准率。其中搜索引擎的分词技术和排序技术是影响搜索结果的关键性。本文以开源的搜索引擎Nutch为原型,使用主题提取器在多个搜索引擎中提取种子站点,再从各种子站点上搜索关键词,实现搜索的主题化和多元化,提高了查准率和查全率。针对Nutch搜索引擎按字分词和排序效果差的问题,本文主要完成了以下两方面的工作:第一,参考各种资料以及相关中文分词插件文档,通过实验对Paoding,IKAnalyzer等中文分词器进行了时效性以及准确率等方面的对比,选取在大量文字分词时,时间和准确度等方面性能更优且有丰富的本地词库的ICTCLAS2015分词器,进行了Nutch中文分词模块的改进。第二,本文提出了结合使用Page Rank算法并加入本地浏览器书签作为参考因子的方法,对Nutch的评分机制进行了改进,提高了搜索结果的确切度。对改进后的算法进行了验证,通过对实验数据的分析说明了改进后的算法不仅可以提高PR值较高的页面的排序结果,而且对本地书签有相关性的搜索结果的排名有所提高。本文通过结合ICTCLAS2015中文分词插件和改良中文分词算法对Nutch搜索引擎系统进行了二次开发,在此基础上,结合网站PR值和本地书签影响因子对Nutch排序算法进行改进,经试验测试表明,改进后的算法在搜索结果更确切,更符合用户的需求。
【学位授予单位】:华北电力大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3

【参考文献】

中国期刊全文数据库 前10条

1 黄贤英;陈红阳;;基于用户兴趣度的PageRank改进算法[J];重庆理工大学学报(自然科学);2014年05期

2 周世龙;陈兴蜀;罗永刚;;Hadoop视角下的Nutch爬行性能优化[J];计算机应用;2013年10期

3 贺志明;王丽宏;张刚;程学旗;;一种抵抗链接作弊的PageRank改进算法[J];中文信息学报;2012年05期

4 县小平;;主题搜索引擎的PageRank算法研究[J];甘肃高师学报;2011年05期

5 陆安江;董旭晖;;个性化元搜索引擎模型的研究与设计[J];计算机与现代化;2011年01期

6 王德广;周志刚;梁旭;;PageRank算法的分析及其改进[J];计算机工程;2010年22期

7 郑小波;郑诚;封军;;基于Nutch专题搜索引擎的研究[J];微计算机信息;2010年30期

8 王春花;朱俊平;;改进的非平均传递权值PageRank算法[J];计算机工程与设计;2010年10期

9 王忠;程磊;;基于元搜索引擎的个性化Web信息采集[J];计算机工程与设计;2009年13期

10 牟帅;黄映辉;李冠宇;;基于中文分词的OWL-S/UDDI语义Web服务检索模型[J];计算机工程与设计;2009年03期

中国硕士学位论文全文数据库 前1条

1 余静;基于Nutch的面向特定主题的爬虫研究[D];辽宁工程技术大学;2008年



本文编号:1203974

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1203974.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f7373***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com