当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Solr的搜索引擎核心技术研究与应用

发布时间:2016-11-30 12:39

  本文关键词:基于Solr的搜索引擎核心技术研究与应用,,由笔耕文化传播整理发布。


《武汉理工大学》 2013年

基于Solr的搜索引擎核心技术研究与应用

蔡学锋  

【摘要】:随着网络信息爆炸式增长,在浩瀚的网络信息中找出需求的信息已成为用户面临的主要问题,通用搜索引擎就是在这一背景下如雨后春笋般涌现,Google和百度已成为通用搜索引擎的代表。通用搜索引擎能够满足普通用户的需求,但是企业内部信息的增长单单依靠普通的搜索引擎难以解决问题,各大企业内部的信息搜索问题逐渐突显出来。中小型企业面临着信息量大、资金紧张的双重境地,使用开源搜索引擎能帮助企业解决这一难题。Lucene就是在这种情况下诞生的开源搜索引擎中突出的代表,为了使Lucene的使用更加快捷方便,Apache在Lucene的基础之上,开发出了更为实用的Solr搜索引擎的框架,通过使用Solr框架能够快速的开发出实用的企业内部搜索引擎。 本文是以Solr作为基础来分析搜索引擎的核心技术、诞生背景、历史及发展现状,分析研究开源搜索引擎的意义,并介绍搜索引擎的基本原理,阐述Lucene的核心框架及Solr的特性。进而阐述搜索引擎的核心技术,包括爬虫技术、网页解析、中文分词、索引建立存储技术、相关排序算法等与搜索引擎密切相关的技术。以金融数据为背景,实现搜索引擎各个模块,每个模块协同工作,共同实现搜索功能,同时各个模块又是一个独立的子系统,能够各自独立工作,易于维护,既实现了金融信息搜索的功能,又符合软件设计高内聚、低耦合的思想。分析目前主流的网络爬虫技术,研究Heritrix的核心框架结构和使用方法,并实现网络爬虫子系统。使用HtmlParser来搭建网页解析子系统,分析网页镜像,提取出需要的金融信息。最后通过Solr来搭建金融搜索平台,使用IK分词法有效的实现了中文分词技术。Solr框架的目的是为了建立高效的索引并为前台提供查询索引的接口,若要使用java语言在前台页面与Solr交互需要使用Solrj,搜索子系统通过Solrj与Solr交互在索引中查询数据,有效的达到了搜索引擎的基本效果。 本文通过扩展Heritrix部分功能使网络爬虫目的性更强,大大减少了抓取无关网站所花费的时间和占用的硬盘空间。在搜索子系统中增加高亮显示和自动补全功能使搜索更加人性化,为了提高性能在Solr中使用缓存功能,并模拟实现分布式的搜索引擎使其具有较好的容错性能。希望本文的研究成果能给研究搜索技术的人员带来方便,并为企业内部搭建搜索引擎带来一点作用。

【关键词】:
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前6条

1 李靖;文登敏;张润伟;;基于Lucene的全文检索引擎的研究与应用[J];淮阴工学院学报;2008年01期

2 栾静;李军锋;;基于Lucene全文检索引擎的应用研究[J];计算机与数字工程;2010年12期

3 曹军;Google的PageRank技术剖析[J];情报杂志;2002年10期

4 蔡琼;罗雪松;;HITS算法在Web挖掘中的应用与改进[J];软件导刊;2008年02期

5 霍庆;刘培植;;使用Solr为大数据库搭建搜索引擎[J];软件;2011年06期

6 鲜国建;赵瑞雪;;基于Solr的中文农业期刊文摘检索系统的构建研究[J];现代图书情报技术;2011年06期

中国硕士学位论文全文数据库 前5条

1 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年

2 王骏;基于垂直搜索引擎技术的房源信息分析系统的设计与实现[D];苏州大学;2006年

3 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年

4 徐海;基于Lucene垂直搜索引擎的研究与实现[D];西安科技大学;2009年

5 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年

【共引文献】

中国期刊全文数据库 前10条

1 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期

2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期

3 陈治昂;张毅;李大学;;基于Web智能的网络广告监测器研究与设计[J];重庆邮电大学学报(自然科学版);2009年01期

4 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期

5 尚冬娟;张敏;;信息过滤系统中的混合式过滤算法[J];重庆工学院学报(自然科学版);2008年01期

6 杜友福;程彩凤;赵鸣;;搜索引擎中智能代理技术及启发式搜索策略研究[J];长江大学学报(自然科学版)理工卷;2009年02期

7 刘双印;徐龙琴;沈玉利;;改进小生境遗传算法在元搜索引擎调度优化中的研究[J];重庆师范大学学报(自然科学版);2008年03期

8 张玉连;张敏;张波;;一种扩展的向量空间模型-隐含语义索引模型研究[J];燕山大学学报;2006年01期

9 景虹;詹海生;;基于Web Services的个性化学习资源获取[J];中国远程教育;2006年08期

10 孟祥增;;基于内容的图像网络教学资源检索研究[J];中国远程教育;2008年04期

中国重要会议论文全文数据库 前7条

1 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

2 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年

3 张赪军;刘祥瑞;李军;黄红梅;;基于本体的语义检索技术研究[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年

4 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年

5 陆勇;侯汉清;;基于词典注释的汉语同义词自动识别[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

6 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎中查询处理研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

7 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

中国博士学位论文全文数据库 前10条

1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

3 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年

4 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年

5 南凯;面向关系型数据共享的数据网格中间件研究[D];中国科学院研究生院(计算技术研究所);2006年

6 朱婕;网络环境下个体信息获取行为研究[D];吉林大学;2007年

7 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年

8 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

9 文坤梅;基于本体知识库推理的语义搜索研究[D];华中科技大学;2007年

10 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

中国硕士学位论文全文数据库 前10条

1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年

2 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年

3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年

4 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年

5 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年

6 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年

7 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年

8 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年

9 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年

10 姜晓伟;粒子群算法在查询优化中的应用[D];哈尔滨理工大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期

2 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期

3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期

4 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期

5 陆云;;对基于Java的全文检索工具包lucene的索引研究[J];电脑学习;2007年02期

6 王学辉;金丹;;Lucene与关系型数据库对比[J];电脑知识与技术(学术交流);2007年03期

7 韩志萍;;新一代OPAC开源软件的兴起及未来发展[J];大学图书馆学报;2009年06期

8 温艳鸿;;基于lucene的文件搜索引擎的设计与扩展[J];福建电脑;2007年08期

9 唐培和,杨新伦,刘浩;Google搜索引擎及其实现技术[J];广西工学院学报;2004年02期

10 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期

中国博士学位论文全文数据库 前3条

1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年

2 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年

3 黎志升;地理信息检索若干技术研究[D];中国科学技术大学;2009年

中国硕士学位论文全文数据库 前10条

1 刘洋;基于Web的内容挖掘技术研究[D];哈尔滨工程大学;2003年

2 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年

3 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年

4 曹红;林业主题搜索引擎研究[D];北京林业大学;2005年

5 任函;大规模中文网页的自动分类研究[D];华中师范大学;2006年

6 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年

7 徐泽平;数据挖掘在Internet信息检索中的应用[D];中国科学院研究生院(计算技术研究所);2001年

8 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年

9 陈小峰;专业搜索引擎的数据存储研究[D];南京师范大学;2007年

10 黄波;主题搜索引擎的研究与应用[D];成都理工大学;2007年

【相似文献】

中国期刊全文数据库 前10条

1 满鹏;;全文检索的原理与实现探讨[J];现代情报;2009年07期

2 张贺;;基于搜索引擎的图书馆之城OPAC检索平台[J];科技情报开发与经济;2011年04期

3 马志强;刘利民;苏依拉;马瑞明;;基于Lucene的站内搜索引擎研究[J];内蒙古工业大学学报(自然科学版);2009年01期

4 李静媛;浅谈搜索引擎应用技术[J];天津市财贸管理干部学院学报;2005年01期

5 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期

6 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期

7 王华栋;饶培伦;;基于搜索引擎的中文分词评估方法[J];情报科学;2007年01期

8 芦淑娟;;WebGIS搜索引擎系统研究与实现[J];软件导刊;2007年05期

9 盛启东;谭守标;徐超;冯二媛;陈军宁;;巧用黑盒法逆推百度中文分词算法[J];计算机技术与发展;2010年04期

10 陈刚;卢炎生;;BBS搜索引擎设计与实现[J];微计算机信息;2006年18期

中国重要会议论文全文数据库 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

中国重要报纸全文数据库 前10条

1 李一鑫;[N];财经时报;2007年

2 周文林;[N];经济参考报;2007年

3 惠正一;[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;[N];中国计算机报;2005年

5 陈珊;[N];人民邮电;2005年

6 赵法忠;[N];中国经营报;2005年

7 金朝力;[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;[N];中国证券报;2006年

9 孙琎;[N];第一财经日报;2006年

10 姜蕊;[N];中国高新技术产业导报;2006年

中国博士学位论文全文数据库 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年

10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

中国硕士学位论文全文数据库 前10条

1 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年

2 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

3 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

4 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年

5 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年

6 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

7 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

8 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

9 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

10 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年


  本文关键词:基于Solr的搜索引擎核心技术研究与应用,由笔耕文化传播整理发布。



本文编号:199274

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/199274.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a8f38***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com