当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Nutch的页面排序算法研究

发布时间:2018-05-30 02:33

  本文选题:搜索引擎 + 向量空间模型 ; 参考:《杭州电子科技大学学报》2013年06期


【摘要】:针对某一主题或学科的垂直搜索引擎是搜索引擎的延伸和细分,面向特定用户提供垂直搜索。网页排序算法是搜索引擎好坏的关键,搜索引擎网页排序算法的目的是从海量搜索结果中将主题相关和权威的网页排在前列,帮助用户查找所需的资源。Nutch搜索引擎只实现了一个基本的综合排序模型,为了使Nutch更好地满足专业用户的需求,该文设计一个综合考虑主题相关性和网页权威性的综合排序模型,将主题相关度因子和改进后的PageRank算法因子融入到Nutch网页评分计算公式中。实验表明,改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用。
[Abstract]:Vertical search engine for a subject or subject is the extension and subdivision of search engine and provides vertical search for specific users. Page sorting algorithm is the key of search engine. The purpose of search engine is to rank the relevant and authoritative web pages in the forefront from the massive search results. To help users find the required resources. Nutch search engine has only implemented a basic comprehensive sorting model, in order to make Nutch better meet the needs of professional users, In this paper, we design a comprehensive ranking model which considers the topic correlation and the authority of the web page, and integrates the theme correlation factor and the improved PageRank algorithm factor into the Nutch web page scoring formula. The experimental results show that the improved sorting algorithm can improve the precision of information, and has obvious tendency of topic, and plays an important role in practical application.
【作者单位】: 杭州电子科技大学计算机学院;
【分类号】:TP391.3

【参考文献】

相关期刊论文 前4条

1 陶林;谌超;强保华;王勇;;基于Hadoop的Nutch网页排序算法研究与实现[J];桂林电子科技大学学报;2013年02期

2 潘涛;梁正友;;Nutch中网页排序效果的改进方法[J];计算机工程;2010年13期

3 张文龙;刘一伟;孙杰;;基于Nutch的垂直搜索引擎的研究[J];南开大学学报(自然科学版);2012年02期

4 李永春;丁华福;;Lucene的全文检索的研究与应用[J];计算机技术与发展;2010年02期

【共引文献】

相关期刊论文 前10条

1 王军;张兴忠;;XML与全文检索在CMS数据归档中的应用[J];电脑开发与应用;2012年01期

2 黄睿;;基于“垂直搜索”技术的重庆市流动党员管理系统研究[J];中国管理信息化;2013年10期

3 陶林;谌超;强保华;王勇;;基于Hadoop的Nutch网页排序算法研究与实现[J];桂林电子科技大学学报;2013年02期

4 陈晓丽;杨欣蓉;王作钊;周航;赵益;沈玲玲;;面向制造业的知识搜索引擎设计[J];电脑知识与技术;2013年16期

5 严良达;;一种基于Lucene的面向主题爬行搜索引擎的研究[J];福建电脑;2013年05期

6 裴志松;;基于Lucene的毕业论文相似性检测[J];长春工程学院学报(自然科学版);2013年04期

7 孙海东;张力;;基于Lucennee.t的医学教育视频垂直检索的设计与实现[J];开放教育研究;2011年02期

8 姜鑫;余平;;基于Lucene的音视频资源检索系统的研究与实现[J];计算机应用与软件;2011年11期

9 李浩;;通用格式的Lucene文档解析器框架的构建[J];计算机与现代化;2011年03期

10 毕洪宇;;利用NoSQL构建高性能全文检索系统[J];计算机与现代化;2012年03期

相关硕士学位论文 前10条

1 孙海东;面向医学教育视频的垂直检索的研究[D];第二军医大学;2011年

2 路卫杰;基于知识库的礼品推荐系统的设计与实现[D];北京邮电大学;2011年

3 文军舰;基于Nutch的Web结构挖掘算法研究[D];天津财经大学;2011年

4 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年

5 李海波;基于MapReduce框架的分布式网络爬行器研究[D];哈尔滨工程大学;2011年

6 张薇;基于OAI-PMH协议及全文检索技术的图书馆联合目录系统[D];苏州大学;2011年

7 陈爽;数据空间下的索引策略研究[D];南京邮电大学;2012年

8 苏希乐;面向手机信息的垂直搜索引擎[D];西安工业大学;2012年

9 黄玉明;内容管理在政府门户网站中的应用研究[D];大连海事大学;2010年

10 孙利芳;基于DSpace的文献仓储库的研究与实现[D];内蒙古大学;2010年

【二级参考文献】

相关期刊论文 前10条

1 谌超;强保华;石龙;;基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J];桂林电子科技大学学报;2012年04期

2 李稚楹;杨武;谢治军;;PageRank算法研究综述[J];计算机科学;2011年S1期

3 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期

4 姚文琳;刘文;;一种基于本体的PageRank算法的改进策略[J];计算机工程;2009年06期

5 潘涛;梁正友;;Nutch中网页排序效果的改进方法[J];计算机工程;2010年13期

6 朱学昊;王儒敬;余锋林;唐昱;;基于Lucene的站内搜索设计与实现[J];计算机应用与软件;2008年10期

7 郑志高;刘庆圣;陈立彬;;基于主题网络爬虫的网络学习资源收集平台的设计[J];中国教育信息化;2010年01期

8 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期

9 索红光;孙鑫;;基于Lucene的中文全文检索系统的研究与设计[J];计算机工程与设计;2008年19期

10 林碧英;赵锐;陈良臣;;基于Lucene的全文检索引擎研究与应用[J];计算机技术与发展;2007年05期

相关硕士学位论文 前1条

1 李世明;专业搜索引擎中信息过滤的研究与实现[D];北京化工大学;2005年

【相似文献】

相关期刊论文 前10条

1 周必水,郦泓;用Java实现基于向量空间的搜索引擎优化[J];计算机应用研究;2003年02期

2 李玉擰;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期

3 李世明;赵恒永;李世友;;专题搜索引擎中信息过滤的研究与实现[J];计算机工程与设计;2006年08期

4 程跃;;面向主题的搜索引擎的设计[J];硅谷;2009年23期

5 殷亚玲;张蕾;;搜索引擎中语义相关反馈技术的研究[J];计算机技术与发展;2006年02期

6 熊才权;田浩;;基于PageRank值的文本相似度改进模型[J];网络安全技术与应用;2010年06期

7 祝伟华;杨永毅;;汽车交易信息搜索引擎的设计与实现[J];计算机系统应用;2010年06期

8 谢红薇;颜小林;余雪丽;;基于本体的Web页面聚类研究[J];计算机科学;2008年09期

9 魏晶晶;杨定达;廖祥文;;基于网页内容相似度改进算法的主题网络爬虫[J];计算机与现代化;2011年09期

10 栾超;郭建胜;;基于分层序列法的搜索引擎系统设计[J];微电子学与计算机;2007年11期

相关会议论文 前10条

1 张健沛;徐泼;杨静;;一种轻量级个性化搜索引擎系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 程新荣;杨仁刚;;网页自动分类在搜索引擎上的应用研究[A];2007'中国仪器仪表与测控技术交流大会论文集(二)[C];2007年

3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

5 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

6 郭鸿志;陈清才;康永燕;王晓龙;;一种基于网站特征识别的搜索引擎排序算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

相关重要报纸文章 前10条

1 博文邋译;你的隐私 搜索引擎知道[N];计算机世界;2007年

2 杨洁;搜索引擎营销市场生变[N];中国计算机报;2007年

3 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年

4 ;法国挑战谷歌推出卫星地图搜索引擎[N];人民日报;2006年

5 MirrorCity.net技术总监 姚浩;让搜索引擎回归最初梦想[N];中国文化报;2008年

6 本报记者 操秀英;国双科技以技术加服务赢得市场[N];科技日报;2009年

7 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年

8 本报记者 樊哲高;搜索引擎三国纷争 中文市场两军对垒[N];中国电子报;2009年

9 EndTo;优化Meta讨好搜索引擎[N];电脑报;2009年

10 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年

相关博士学位论文 前10条

1 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年

2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

10 周,

本文编号:1953534


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1953534.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户83b4b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com