基于增强型类PageRank算法的搜索引擎的研究与设计
本文关键词:基于增强型类PageRank算法的搜索引擎的研究与设计,由笔耕文化传播整理发布。
《武汉理工大学》 2014年
基于增强型类PageRank算法的搜索引擎的研究与设计
许彬
【摘要】:随着大数据时代的到来,不仅仅是整个互联网的信息量暴增,许多大中型互联网企业也拥有越来越多的数据。如何从成千上万的数据海洋中准确地使用户找到需要的信息是现在企业面临的一大难题。商用的搜索引擎不具有针对性,这使得企业需要开发自身的搜索引擎以便满足用户需求。从无到有开发和维护一个完整的搜索引擎是非常昂贵的。除了专门从事搜索引擎运营的公司(如Google、Baidu)之外,其他的互联网企业想要开发具备专业性能的搜索引擎是十分困难的。开源程式库Lucene很好地解决了开发企业内部搜索引擎的问题。然而开源的程式库是为了适应大多数站内搜索系统,缺乏个性化,并不能满足企业搜索系统的针对性。同时由于Lucene排序算法比较简单、忽视用户反馈、偏重旧网页等缺点,不能准确地满足用户的需求。 为了帮助企业应对互联网环境的新挑战,开发一个能用于搜索较大数据库的搜索系统,同时保证用户能够得到友好的界面搜索体验和更加精确的查询结果,本文工作如下: (1)为了解决用户反馈问题,本文利用Lucene搭建搜索引擎的基本框架,类比PageRank算法采用链接作为网页重要性的评价指标,建立用户查询和网页点击率之间的联系,提出类PageRank算法(Similar Page Rank,SPR)。再针对专用系统对实时性和用户兴趣度反馈的要求,在算法中添加时间函数和用户兴趣度函数,得到增强型类PageRank算法(Enhanced Similar Page Rank,ESPR)。 (2)在新算法的基础上对整个系统进行完整的原理分析,详细阐述了ESPR算法嵌入到系统中的过程。首先重新定义了分词之后索引结构图,直观的说明了对整个索引结构做出的调整。然后结合Lucene原有的语法分析方式完整地推导出搜索索引过程中ESPR算法的打分公式。 (3)根据对各个模块的原理分析,通过编程实现了基于增强型类PageRank算法的搜索引擎。Lucene具有良好的封装性和继承性,可以在自定义打分模块中实现对程序的修改。由算法导致的索引结构变化也可以在相应的模块中重新定义。 (4)将本文的搜索引擎和其它两类搜索引擎进行查准率性能比较。通过5人技术小组综合评定三个搜索引擎单个查询和多组查询效果。实验结果表明不管是单个查询返回的结果还是多组查询返回的结果,本文的搜索引擎均拥有更高的查准率。 基于ESPR算法的搜索引擎成本低、准确率高、针对性强,因此可用于大中型互联网企业提供适合企业自身信息特点的精确搜索服务。除此之外,拥有海量数据的传统企业进军互联网时也非常适合采用本文的搜索引擎为网站提供搜索服务。
【关键词】:
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 余旸;夏国平;;基于链接结构分析的主题搜索[J];北京工业大学学报;2011年04期
2 程时端;郭亮;王文东;;社会搜索研究综述[J];北京邮电大学学报;2013年01期
3 桑秀芝;刘新旺;;基于极大熵OWA算子的元搜索引擎搜索结果集成(英文)[J];Journal of Southeast University(English Edition);2013年02期
4 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
5 杨沛,郑启伦,彭宏;Inherit/Feedback:一种新的Web主题挖掘方法[J];计算机研究与发展;2004年05期
6 王博;尚世锋;武永卫;郑纬民;;多核体系下的并行任务构建[J];计算机研究与发展;2012年04期
7 张乃洲;李石君;余伟;张卓;;使用联合链接相似度评估爬取Web资源[J];计算机学报;2010年12期
8 杨格兰;涂立;;基于主题相关性和链接权重的PageRank算法[J];华中科技大学学报(自然科学版);2012年S1期
9 张亮,施伯乐,周向东,刘莉,张琪;发掘相关反馈日志中关联信息的图像检索方法[J];软件学报;2004年01期
10 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
中国博士学位论文全文数据库 前1条
1 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
2 夏亚梅;苏森;;面向本体实例生成的有限汉语语法学习系统[J];北京邮电大学学报;2010年05期
3 周翔;;基于Websphinx网络爬虫的研究与改进[J];电脑知识与技术;2008年28期
4 高玉良;张济强;白瑶;;基于Lucene的多索引搜索的研究与应用[J];电脑知识与技术;2012年07期
5 李江;殷之明;;链接分析研究综述[J];大学图书馆学报;2008年02期
6 冯永;贺迅;唐黎;陈显勇;陈贞;;面向文本知识管理的自适应中文分词算法[J];重庆大学学报;2010年10期
7 吴妮;;接触Lucene[J];计算机光盘软件与应用;2012年07期
8 付涛;戴玉刚;周登;;链接分析在主题信息检索系统中的应用[J];电脑与电信;2009年01期
9 冯昀;;爬虫技术在网站信息拨测系统中的应用[J];广西通信技术;2012年04期
10 罗灏;徐小良;吕跃华;;科技项目申请书关键词提取方法[J];电子科技;2013年07期
中国重要会议论文全文数据库 前5条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 邵学广;徐筱杰;;化学信息学(计算机化学)的研究进展[A];化学学科发展研究报告(2008-2009)[C];2008年
4 刘权;郭武;;基于核主成分分析的话题跟踪系统[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
5 吴克河;何霞;李廷顺;;基于Lucene构建电力企业搜索引擎分析器[A];2008电力行业信息化年会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
2 雷亮;互联网环境下图像检索若干问题研究[D];重庆大学;2011年
3 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
4 刘伟;图像检索中若干问题的研究[D];浙江大学;2007年
5 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
6 方辉;机械制造信息资源的非规范知识处理技术研究[D];四川大学;2007年
7 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
8 王众;基于KDD理论的景象匹配技术研究[D];哈尔滨工程大学;2008年
9 陈刚;基于内容的相关反馈式音乐检索方法研究[D];华中科技大学;2010年
10 齐恒;基于内容图像检索的关键技术研究[D];大连理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
2 刘嘉;Web结构挖掘研究[D];西安电子科技大学;2009年
3 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
4 韩保川;基于用户兴趣本体的初始URLs选择方法的研究[D];西华大学;2011年
5 周新;情境感知的物联网信息检索技术研究[D];大连海事大学;2011年
6 马燕;基于快速相似度的Web结构挖掘的研究[D];南京信息工程大学;2011年
7 徐西孟;基于OODA决策循环的主题发现技术的研究与设计[D];济南大学;2011年
8 陈士胃;图像检索中基于日志学习的相关反馈技术研究[D];南京航空航天大学;2010年
9 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年
10 罗会红;基于SSH和Lucene垂直搜索引擎研究[D];长沙理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期
2 胡海波;王科;徐玲;汪小帆;;基于复杂网络理论的在线社会网络分析[J];复杂系统与复杂性科学;2008年02期
3 余高辉;杨建梅;曾敏刚;;QQ群好友关系的复杂网络研究[J];华南理工大学学报(社会科学版);2011年04期
4 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
5 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
6 赵华;赵铁军;于浩;郑德权;;基于查询向量的英语话题跟踪研究[J];计算机研究与发展;2007年08期
7 王辉;左万利;王晖昱;宁爱军;孙志伟;满春雷;;基于质心向量的增量式主题爬行[J];计算机研究与发展;2009年02期
8 彭涛;孟宇;左万利;王英;胡亮;;主题爬行中的隧道穿越技术[J];计算机研究与发展;2010年04期
9 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期
10 贾美英;杨炳儒;郑德权;杨靖;;采用CRF技术的军事情报术语自动抽取研究[J];计算机工程与应用;2009年32期
【相似文献】
中国期刊全文数据库 前10条
1 何晓阳,吴强,吴治蓉;HITS算法与PageRank算法比较分析[J];情报杂志;2004年02期
2 陈谦;;PageRank算法在孤立点检测中的应用[J];微型机与应用;2010年24期
3 张毅;张冬梅;;搜索引擎PageRank算法的比较与改进[J];科技创新导报;2008年21期
4 余润海;;PageRank算法在网页搜索中的实现[J];考试周刊;2009年24期
5 张光年;李茂青;;基于PageRank算法的一种搜索引擎优化方法及实现[J];科技信息;2007年04期
6 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期
7 李永亮;黄曙光;鲍蕾;;一种基于PageRank算法和知网的词义消歧方法[J];计算机应用与软件;2011年05期
8 孟瑞玲;;个性化PageRank算法在图书馆智能搜索引擎中的实现[J];现代情报;2010年07期
9 王兵;许少华;张兴旺;;基于改进PageRank算法的管道专业搜索引擎系统设计与实现[J];大庆石油学院学报;2007年01期
10 李强;王申康;;一种基于PageRank算法原理的会员人气度排序算法[J];计算机系统应用;2008年01期
中国硕士学位论文全文数据库 前5条
1 许彬;基于增强型类PageRank算法的搜索引擎的研究与设计[D];武汉理工大学;2014年
2 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
3 于美婷;基于改进PageRank算法的给水管网改造技术研究[D];哈尔滨工业大学;2014年
4 王晓梅;恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现[D];北京邮电大学;2010年
5 陈谦;一种基于PageRank算法的孤立点检测方法及应用[D];暨南大学;2011年
相关机构
>北京邮电大学
>暨南大学
>哈尔滨工业大学
>武汉理工大学
相关作者
>王晓梅 >于美婷
>袁方 >许彬
>陈谦
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
京ICP证040441号
互联网出版许可证 新出网证(京)字008号
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-9993 010-62982499
服务热线:010-62985026 010-62791813
在线咨询:
传真:010-62780361
京公网安备11010802020475号
本文关键词:基于增强型类PageRank算法的搜索引擎的研究与设计,由笔耕文化传播整理发布。
,本文编号:129047
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/129047.html