基于MapReduce的并行PageRank算法实现
本文关键词:基于MapReduce的并行PageRank算法实现 出处:《计算机工程》2014年02期 论文类型:期刊论文
更多相关文章: 搜索引擎 PageRank算法 MapReduce框架 并行计算 Hadoop平台
【摘要】:分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。
【作者单位】: 同济大学计算机科学与技术系;上海师范大学信息与机电工程学院;上海证券交易所;
【基金】:国家自然科学基金资助项目(61103069,71170148) 国家科技支撑计划基金资助项目(2012BAD35B01) 上海市科技创新计划基金资助项目(11DZ1501703) 陈家镇智慧社区和智能交通基金资助项目(11dz1210600)
【分类号】:TP391.3
【正文快照】: 1概述搜索引擎是近年来海量信息数据挖掘应用领域中的一个热点。搜索引擎的研究方向主要是在爬虫机制、切词机制、索引机制、排序机制、搜索内容[1]等方面。其中,排序机制[2]一直是搜索引擎技术中的一个难点。由于传统信息检索(IR)领域的检索方法忽略了Web上的某些特性,因此不
【共引文献】
中国期刊全文数据库 前10条
1 刘喜文;郑昌兴;王文龙;汤刚强;;构建数据仓库过程中的数据清洗研究[J];图书与情报;2013年05期
2 陈光鹏;杨育彬;高阳;商琳;;一种基于MapReduce的频繁闭项集挖掘算法[J];模式识别与人工智能;2012年02期
3 孟军;王蓬;张静;王秀坤;;基于项集依赖的最小关联规则挖掘[J];计算机科学;2013年01期
4 王立华;肖慧;徐硕;刘树;杜卫利;黄其泉;王宇;;基于关联规则的渔业信息推荐系统设计与实现[J];农业工程学报;2013年07期
5 李栋;徐志明;李生;刘挺;王秀文;;在线社会网络中信息扩散[J];计算机学报;2014年01期
6 朱静宜;;基于中介中心度的微博影响力个体发现[J];计算机应用研究;2014年01期
7 赵之滢;于海;朱志良;汪小帆;;基于网络社团结构的节点传播影响力分析[J];计算机学报;2014年04期
8 杨博;陈贺昌;朱冠宇;赵学华;;基于超链接多样性分析的新型网页排名算法[J];计算机学报;2014年04期
9 周东浩;韩文报;;DiffRank:一种新型社会网络信息传播检测算法[J];计算机学报;2014年04期
10 谢浩;孙伟;;基于段落-句子互增强的自动文摘算法[J];计算机科学;2013年S2期
中国博士学位论文全文数据库 前7条
1 李朋;异构信息网络分析模型及其应用研究[D];重庆大学;2013年
2 陈浩;Web搜索的用户兴趣与智能优化研究[D];中南大学;2012年
3 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
4 吴共庆;基于标签路径特征的Web新闻内容抽取研究[D];合肥工业大学;2012年
5 曾雪;在线社交网络用户的分类及采样研究[D];电子科技大学;2013年
6 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年
7 龚家瑜;基于数据挖掘的药物靶标发现方法研究[D];华东理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 安静;基于专家系统的英语辅助教学系统的设计与实现[D];北京化工大学;2011年
2 刘建明;垂直搜索引擎中的主题爬虫技术研究[D];广东工业大学;2013年
3 张涛;Web教学资源采集中超链接可采集度评价研究[D];南京师范大学;2013年
4 马桂香;评论文本的多方面观点挖掘研究[D];北京交通大学;2013年
5 王超;基于本体的旱区农业垂直搜索引擎研究[D];西北农林科技大学;2013年
6 刘文君;基于膜计算优化算法的语义主题爬虫研究[D];西华大学;2013年
7 舒昕;基于社会网络分析的Web社区发现[D];兰州交通大学;2013年
8 王良伟;面向垂直搜索引擎的主题爬虫方法研究[D];重庆大学;2013年
9 刘闽;基于知识迁移的网络舆论多维度识别系统的设计与实现[D];哈尔滨工业大学;2013年
10 王梅;随机游走图像分割算法的研究[D];北京工业大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 陈芸;Google的排名算法分析[J];景德镇高专学报;2005年02期
2 焦金涛;;基于PageRank的Web挖掘改进算法[J];计算机工程;2009年15期
3 庞敏;周海英;;Web结构挖掘在搜索引擎中的应用[J];软件导刊;2008年12期
4 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期
5 李卫东;陆玲;;融合VSM技术的PageRank算法研究与应用[J];计算机与现代化;2011年07期
6 王煜;;搜索引擎中网站排名的影响因素[J];中国科技信息;2007年03期
7 徐德志;申红婷;;网页排名算法及其应用[J];贵州大学学报(自然科学版);2007年05期
8 县小平;;一种改进的PageRank算法[J];太原师范学院学报(自然科学版);2011年01期
9 徐家树,邢立新,覃征;基于链接文本相关度的超链接算法(英文)[J];哈尔滨商业大学学报(自然科学版);2005年03期
10 史磊峰;孟嗣仪;刘云;;搜索引擎排序算法的探索[J];铁路计算机应用;2010年12期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 范晓樯;李桦;田正雨;;超声速/高超声速飞行器复杂流场大规模并行数值仿真[A];计算流体力学研究进展——第十二届全国计算流体力学会议论文集[C];2004年
6 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
7 齐进;叶文华;;三维激光烧蚀瑞利-泰勒不稳定性并行计算[A];中国空气动力学学会第十届物理气体动力学专业委员会会议论文集[C];2001年
8 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
10 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 陈军;分布式存储环境下并行计算可扩展性的研究与应用[D];中国人民解放军国防科学技术大学;2000年
2 尹欣;三维弹性问题边界元法并行计算及其工程应用[D];清华大学;2000年
3 陈晓春;基于并行计算的大涡模拟方法及其工程应用基础研究[D];西安建筑科技大学;2004年
4 王开健;基于特大增量步算法的网络并行计算[D];清华大学;2005年
5 张理论;面向气象预报数值模式的高效并行计算研究[D];中国人民解放军国防科学技术大学;2002年
6 寇哲君;可扩展冲击—接触并行计算及其在汽车碰撞模拟中的应用[D];清华大学;2003年
7 刘丽;人工免疫网络研究及应用[D];江南大学;2008年
8 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
9 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
10 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
中国硕士学位论文全文数据库 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
本文编号:1315236
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1315236.html