当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于分布式计算的搜索引擎关键技术研究与实现

发布时间:2016-06-03 21:04

  本文关键词:基于分布式计算的搜索引擎关键技术研究与实现,由笔耕文化传播整理发布。


《西安电子科技大学》 2013年

基于分布式计算的搜索引擎关键技术研究与实现

旷文科  

【摘要】:伴随着互联网的高速发展,网络上的数据信息量急剧膨胀,有“互联网窗口”之称的搜索引擎的计算量及存储量不可同日而语。面对如此庞大且高速增长的海量数据,传统集中式搜索引擎暴露出诸多不足,主要表现在时效性差,可扩展性低,故障率高等方面。面对上述难题,且随着分布式计算技术不断发展成熟,,分布式搜索引擎应运而生。 本文针对分布式搜索引擎,剖析了分布式计算的三项关键技术,即分布式文件系统、Map/Reduce编程模型、分布式结构化数据存储。结合传统搜索引擎主要模块遭遇的瓶颈,阐述了分布式网络爬虫及Map/Reduce构建倒排索引的原理及应用。此外,对搜索引擎涉及的关键技术提出了部分改进算法及优化设计,并进行相应的实验对比测试:为了在最短的时间内抓取价值最高的网络资源,提出了多优先级多队列网络爬虫,其基本思想即URL价值越高,优先级就越高应优先抓取;三叉Trie树在分词模块中的应用,极大地降低了分词算法的空间复杂度;基于用户习惯及关键词的相关度,提出了静态缓存和动态缓存相结合的多级缓存索引,提高了检索效率及用户体验。 最后,本文基于Hadoop分布式计算框架及Lucene检索引擎,部署了一个4节点的分布式搜索引擎系统。将改进算法及优化设计应用于相应关键模块,均取得了较大的效率提升。

【关键词】:
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 王俊生;施运梅;张仰森;;基于Hadoop的分布式搜索引擎关键技术[J];北京信息科技大学学报(自然科学版);2011年04期

2 王海英;一种改进的多线程模型[J];东北林业大学学报;2002年01期

3 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期

4 赵应秋;罗军;张君艳;;基于知网的词语语义相关度计算[J];信息技术;2010年03期

5 赵欢;朱红权;;基于双数组Trie树中文分词研究[J];湖南大学学报(自然科学版);2009年05期

6 董守斌;赵铁柱;;面向搜索引擎的分布式文件系统性能分析[J];华南理工大学学报(自然科学版);2011年04期

7 邓攀;刘功申;;一种高效的倒排索引存储结构[J];计算机工程与应用;2008年31期

8 张卫丰;徐宝文;周晓宇;许蕾;李东;;Web搜索引擎综述[J];计算机科学;2001年09期

9 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期

10 王振宇;郭力;;基于Hadoop的搜索引擎用户行为分析[J];计算机工程与科学;2011年04期

中国硕士学位论文全文数据库 前6条

1 燕昆;分布式搜索引擎索引安全及缓存策略研究[D];华中科技大学;2011年

2 李兆福;基于K最短路径的中文分词算法研究与实现[D];哈尔滨工程大学;2009年

3 陈勇;基于Hadoop平台的通信数据分布式查询算法的设计与实现[D];北京交通大学;2009年

4 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年

5 杨溥;搜索引擎中爬虫的若干问题研究[D];北京邮电大学;2009年

6 王黎;搜索引擎的相关性排序算法研究[D];中国科学技术大学;2010年

【共引文献】

中国期刊全文数据库 前10条

1 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期

2 朱力平,丰国炳;用基于内容的Web图像搜索引擎设计消防电子化道路水源手册[J];安全与环境学报;2004年03期

3 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期

4 张钦;张鹏程;;运用OpenMP和CUDA优化蒙特卡洛算法[J];安阳师范学院学报;2012年02期

5 夏亚梅;苏森;;面向本体实例生成的有限汉语语法学习系统[J];北京邮电大学学报;2010年05期

6 陶镇威;周雨程;;基于Compass框架的高级搜索系统的设计与实现[J];重庆理工大学学报(自然科学);2011年08期

7 李敏;黄凯;;一个多线程全文检索系统的构建[J];长江大学学报(自然科学版)理工卷;2010年03期

8 蔡兵;胡敏;;基于Lucene2.0的书目搜索引擎设计[J];重庆图情研究;2009年01期

9 张淑华;;图书馆参考咨询系统新技术探析[J];黑龙江档案;2011年05期

10 王结臣;王豹;胡玮;张辉;;并行空间分析算法研究进展及评述[J];地理与地理信息科学;2011年06期

中国重要会议论文全文数据库 前8条

1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年

3 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年

4 崔向徽;林忠文;卢光军;;集群计算技术在无线接收系统中的应用[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

5 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年

6 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年

7 陈诚;李光亚;童庆;;增量爬取技术的策略框架设计[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

8 王斌;;移动互联网定位技术分析及融合方式探讨[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年

中国博士学位论文全文数据库 前10条

1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年

2 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年

3 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

4 马辉;基于MapReduce的分布式地震射线追踪方法研究[D];中国地质大学(北京);2012年

5 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年

6 向生建;安全中间件系统关键技术研究[D];电子科技大学;2006年

7 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年

8 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年

9 赵斌;若干等离子体物理过程的Fokker-Planck模拟[D];中国科学技术大学;2007年

10 何冰;基于Boltzmann方程三维可压缩高速流动并行算法及其应用研究[D];上海大学;2008年

中国硕士学位论文全文数据库 前10条

1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年

2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年

3 刘林;基于语义的元搜索引擎关键技术研究[D];河南工业大学;2010年

4 吴贵鑫;云计算中的MapReduce并行编程模式研究[D];河南理工大学;2010年

5 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年

6 凌辰;基于Web服务器远程无缝迁移技术的研究与应用[D];天津理工大学;2010年

7 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年

8 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年

9 沈益舒;搜索语句的时间属性研究及其在检索排序中的应用[D];浙江大学;2011年

10 杨珏;基于并行环境求解TSP问题[D];昆明理工大学;2009年

【二级参考文献】

中国期刊全文数据库 前10条

1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期

2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

3 宋柔;计算机辅助汉语校对系统[J];当代语言学;2001年01期

4 胡萌;赵卫东;王志成;韩下林;;线程池设计与动态优化[J];电脑知识与技术;2008年36期

5 翁小东;;基于UNIX C语言的一种线程池实现[J];电脑知识与技术;2009年16期

6 雷葆华,杨明川;P2P技术的组网模式与业务模式探讨[J];电信技术;2004年11期

7 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期

8 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期

9 彭波,李晓明;搜索引擎倒排文件的一种分块组织技术[J];电子学报;2005年02期

10 朱小娟;陈特放;;词频统计中文分词技术的研究[J];仪器仪表用户;2007年03期

中国硕士学位论文全文数据库 前9条

1 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年

2 孟凡彦;基于线程池机制的高性能DHCP服务器研究与实现[D];西北工业大学;2005年

3 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年

4 胡一俊;web超链分析应用研究[D];武汉大学;2005年

5 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年

6 陈学亮;基于多核平台优化的OGRE 3D渲染引擎[D];浙江大学;2007年

7 朱玉丽;基于网格技术的主题爬虫算法优化的研究与实现[D];沈阳工业大学;2007年

8 王文明;基于P2P的分布式搜索引擎的研究[D];天津大学;2007年

9 黄正鹏;分布式搜索引擎的设计与实现[D];华东师范大学;2008年

【相似文献】

中国期刊全文数据库 前10条

1 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

2 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期

3 伍裕标;搜索无结果原因剖析[J];个人电脑;2004年03期

4 曹晓声;乔杰华;;网络数据的挖掘[J];辽宁工程技术大学学报;2006年S1期

5 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期

6 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期

7 刘高原;张国平;;基于Nutch的搜索引擎技术[J];平顶山学院学报;2008年05期

8 赵红梅;互联网实时信息搜索引擎[J];大众标准化;2004年12期

9 王丰;戴兵;;国内中文搜索引擎研究[J];电脑知识与技术(学术交流);2007年08期

10 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期

中国重要会议论文全文数据库 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

中国重要报纸全文数据库 前10条

1 李一鑫;[N];财经时报;2007年

2 周文林;[N];经济参考报;2007年

3 惠正一;[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;[N];中国计算机报;2005年

5 陈珊;[N];人民邮电;2005年

6 赵法忠;[N];中国经营报;2005年

7 金朝力;[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;[N];中国证券报;2006年

9 孙琎;[N];第一财经日报;2006年

10 姜蕊;[N];中国高新技术产业导报;2006年

中国博士学位论文全文数据库 前10条

1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年

10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

中国硕士学位论文全文数据库 前10条

1 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

2 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年

3 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年

4 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年

5 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年

6 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年

7 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年

8 王珍;维、哈、柯文搜索引擎中的自动分类技术研究[D];新疆大学;2010年

9 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年

10 罗浩;基于CLucene和Larbin的企业搜索引擎的研究与实现[D];电子科技大学;2010年


  本文关键词:基于分布式计算的搜索引擎关键技术研究与实现,由笔耕文化传播整理发布。



本文编号:53366

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/53366.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d086***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com