当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Hadoop的Nutch网页排序算法研究与实现

发布时间:2018-03-04 03:06

  本文选题:Hadoop集群 切入点:MapReduce 出处:《桂林电子科技大学学报》2013年02期  论文类型:期刊论文


【摘要】:为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式编程模式编码实现PageRank算法。实验结果表明,在Nutch搜索引擎系统中实现了PageRank算法后,系统的检索具有更高的准确率,能够更好地为用户提供检索服务。
[Abstract]:In order to meet the increasing demand for high quality search in search engine system, the PageRank algorithm is analyzed for the PageR-ank web page sorting algorithm which does not realize Google in Nutch search engine framework, and the validity of PageRank algorithm is verified by experiments. The Hadoop distributed cluster is successfully built, and the PageRank algorithm is implemented based on MapReduce distributed programming mode coding in the Nutch framework. The experimental results show that the retrieval accuracy of the system is higher after the PageRank algorithm is implemented in the Nutch search engine system. Can better provide the search service for the user.
【作者单位】: 桂林电子科技大学计算机科学与工程学院;
【基金】:国家自然科学基金(61163057) 广西自然科学基金(2012GXNSFAA053228)
【分类号】:TP393.092

【参考文献】

相关期刊论文 前5条

1 谌超;强保华;石龙;;基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J];桂林电子科技大学学报;2012年04期

2 李稚楹;杨武;谢治军;;PageRank算法研究综述[J];计算机科学;2011年S1期

3 姚文琳;刘文;;一种基于本体的PageRank算法的改进策略[J];计算机工程;2009年06期

4 潘涛;梁正友;;Nutch中网页排序效果的改进方法[J];计算机工程;2010年13期

5 张敏;李锋;;PageRank算法研究[J];微计算机信息;2011年08期

【共引文献】

相关期刊论文 前10条

1 余庆檄;;基于Hadoop的企业云存储技术探索[J];计算机光盘软件与应用;2013年04期

2 潘涛;梁正友;;Nutch中网页排序效果的改进方法[J];计算机工程;2010年13期

3 龙文明;彭敦陆;姜兴龙;;一种基于用户角色的综合网页排序算法[J];计算机工程;2011年07期

4 方树峰;;基于用户反馈的PageRank改进算法[J];计算技术与自动化;2012年01期

5 张小娣;宋余庆;;基于科学知识图谱的搜索引擎前沿分析[J];科技管理研究;2011年18期

6 杨格兰;涂立;;基于主题相关性和链接权重的PageRank算法[J];华中科技大学学报(自然科学版);2012年S1期

7 郭庆宝;贾代平;;融合反馈信息与内容相关度的PageRank改进算法[J];计算机工程与设计;2011年12期

8 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期

9 何静;郭进利;;基于改进PageRank算法的微博用户影响力研究[J];中国报业;2013年02期

10 舒琰;向阳;张骐;张熊熊;张君瑛;;基于PageRank的微博排名MapReduce算法研究[J];计算机技术与发展;2013年02期

相关硕士学位论文 前9条

1 文军舰;基于Nutch的Web结构挖掘算法研究[D];天津财经大学;2011年

2 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年

3 李海波;基于MapReduce框架的分布式网络爬行器研究[D];哈尔滨工程大学;2011年

4 郭庆宝;基于PageRank的搜索引擎优化方法研究[D];山东师范大学;2012年

5 梅放;基于社会化标签的移动音乐检索[D];大连理工大学;2009年

6 周雪芹;主题搜索引擎中相关技术的研究与实现[D];湖北工业大学;2010年

7 李倩倩;基于个性化知识搜索的E-learning系统的研究[D];湖北工业大学;2012年

8 宋宇;深度web采集系统的设计与实现[D];电子科技大学;2012年

9 李稚楹;基于网页内容和时间反馈的网页排序PageRank算法研究[D];重庆理工大学;2012年

【二级参考文献】

相关期刊论文 前10条

1 王俊生;施运梅;张仰森;;基于Hadoop的分布式搜索引擎关键技术[J];北京信息科技大学学报(自然科学版);2011年04期

2 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期

3 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期

4 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期

5 姚文琳;刘文;;一种基于本体的PageRank算法的改进策略[J];计算机工程;2009年06期

6 王德广;周志刚;梁旭;;PageRank算法的分析及其改进[J];计算机工程;2010年22期

7 赵珂;逯鹏;李永强;;基于Lucene的搜索引擎设计与实现[J];计算机工程;2011年16期

8 白似雪;刘华斌;;基于页面分块模型的PageRank算法研究[J];南昌大学学报(工科版);2008年02期

9 白似雪;万晶;;用时效曲线拟合改进PageRank算法[J];南昌大学学报(工科版);2009年03期

10 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期

相关硕士学位论文 前4条

1 董长春;基于Hadoop的倒排索引技术的研究[D];辽宁大学;2011年

2 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年

3 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武汉理工大学;2008年

4 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

【相似文献】

相关期刊论文 前10条

1 卢超 ,朱政文 ,方华 ,蔡克红 ,陈俊良;高效Internet个性化信息发现的实现[J];计算机应用与软件;2003年12期

2 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期

3 杜光芹;张化祥;;基于超链接结构和向量空间模型的网页排序算法研究[J];信息技术与信息化;2006年04期

4 张佳;梁少华;;Web结构挖掘与其基于超链接结构的算法[J];科技信息;2007年02期

5 李吉平;吴陈;曾庆军;;基于转移概率的PageRank算法研究[J];科学技术与工程;2008年08期

6 徐昭苏;;网站推广之SEO[J];科技信息(科学教研);2008年09期

7 高灵霞;;基于主题爬虫的个性化搜索引擎技术分析[J];电脑知识与技术;2009年32期

8 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期

9 覃振权;李凯斌;李明楚;;基于PageRank和系统调用的网页安全检测模型[J];小型微型计算机系统;2010年10期

10 张亚男;王鑫;;基于内容管理的网站构建系统的研究[J];硅谷;2010年23期

相关会议论文 前8条

1 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

3 刘强国;左志宏;董祥千;;基于WEB超链接分析算法的研究综述[A];四川省通信学会2006年学术年会论文集(二)[C];2006年

4 薛宇飞;刘奕群;张敏;马少平;茹立云;;基于用户浏览图的网页质量评估方法的比较分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

5 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

6 陈小飞;王轶彤;;一种基于链接结构的Spam网页过滤算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

7 孔维泽;刘奕群;张敏;马少平;;问答社区中回答质量的评价方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年

相关重要报纸文章 前5条

1 北京 窦芳芳;给IE加上Google搜索工具条[N];电脑报;2001年

2 飘零雪;内嵌浏览器插件,,Google搜索直达[N];中国电脑教育报;2004年

3 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;实验与实用系统[N];计算机世界;2003年

4 陈聪;Google伸向局域网[N];中国计算机报;2002年

5 小新;拒绝PR挟持 查清网站真实PR值[N];电脑报;2009年

相关博士学位论文 前3条

1 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年

2 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

3 高e

本文编号:1563844


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1563844.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户62555***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com