当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于mapreduce的分布式聚类搜索引擎设计与实现分析【毕业论文】.pdf

发布时间:2016-07-30 22:00

  本文关键词:基于MapReduce的分布式聚类搜索引擎设计与实现,由笔耕文化传播整理发布。


网友wz_198620近日为您收集整理了关于基于mapreduce的分布式聚类搜索引擎设计与实现分析【毕业论文】的文档,希望对您的工作和学习有所帮助。以下是文档介绍:电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERTHESIS论文题目基于MapReduce的分布式聚类搜索引擎设计与实现学科专业计算机软件与理论学号201121060321作者姓名玉兆辉指导教师陈波副教授分类号密级UDC注1学位论文基于MapReduce的分布式聚类搜索引擎设计与实现(题名和副题名)玉兆辉(作者姓名)指导教师陈波副教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机软件与理论提交论文日期2014.3论文答辩日期2014.5.12学位授予单位和日期电子科技大学2014年06月29日答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。puterSoftwareandTheoryAuthor:YuZhaohuiAdvisor:ChenBoSchool:puterScience&Engineering独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名:导师签名:日期:年月日摘要I摘要近几年来,互联网技术飞速发展,社交格局发生新变化,人们更多的依赖网络来表达自己的观点看法。这使得网络中的信息数量海量的增长,人们也越来越多的依赖网络来获取资料,而当前的集中式搜索引擎集在处理海量数据时效率低下,并且由于网络数据量的不断增大,搜索结果数量众多又呈线状罗列,有很多与用户无关的信息充斥在其中,加上现有搜索引擎有在获取不动态网页信息时的不足,使得用户不能在很短时间内定位到所要查询的信息。因此,能够使用户快速、准确、全面地获取到所要检索的信息对用户来说已是十分迫切的需求。为了解决用户在一般搜索引擎上无法迅速定位所需的信息,以及集中式的搜索引擎在处理大数据集时效率低的问题。本文综合研究了搜索引擎,数据挖掘以及Hadoop分布式集群的相关内容,主要完成以下工作:1.设计并实现了一种基于分布式集群基础上的聚类搜索引擎,包括信息采集、信息预处理,对信息聚类处理和相应用户的检索需求展示检索结果。2.针对无法爬取全面信息的问题,本文基于元搜索引擎Nutch和脚本解释引擎Rhino,提出并设计了一种动静结合的网络爬取策略,可以在信息采集阶段全面的获取网络动态和静态网页信息。3.本文在聚类模块中对于Canopy-Kmeans聚类算法以及Canopy-Kmeans基于最大最小原则的改进算法由串行运行实现了MapReduce的并行运行的模式,进而对检索结果进行聚类,同时也实现了Dirichlet和LDA等经典的聚类算法,对不同类型的信息库可选用不同的算法聚类,以达到相对较好的效果。4.在聚类标签生成的过程中,本文设计并实现的是自动产生和自定义结合的方式,使得聚类标签具有很好的可读性和合理性。5.在用户检索显示模块,本文用层次化的目录结构来显示搜索结果与聚类之间的关系,使得用户能够更高效更准确的对检索结果进行浏览。关键词:搜索引擎,聚类,分布式,Hadoop,集群ABSTRACTIIABSTRACTInrecentyears,technology,socialstructurechanged,workismoredependedontoexpresstheirviewsandideas.workinformationincreasedmassively.Meantime,workismoredependedontoobtaininformation.However,thecurrentsetofcentralizedsearchenginesisinefficientwhendealingwithhugeamountsofdata.What’sworse,workdataisincreasing,largenumberofsearchresultsarelistandlinearly,withvastamountofirrelevantinformationtotheuserinwhichflooding,workinformation.Inaveryshortperiodoftime,theusercannotnavigatetotheinformationyouwanttoquery.Thus,enablinguserstoquickly,esstotheinformationtoberetrievedforuserswillbeveryurgentneeds.Inordertosolvetheusercannotquicklylocatethedesiredinformationonthegeneralsearchengines,aswellastheinefficientcentralizedsearchengineswhendealingwithhugeamountsofdata.Inthisthesis,acomprehensivestudyoftherelevantcontentsearchengine,datamininganddistributedHadoopclusters,pletethefollowingtasks:1.Adistributedcluster-basedclusteringbasedonsearchenginedesignedandimplemented,includinginformationgathering,informationpreprocessing,andthedemandforinformationretrievalclusteringprocessanddisplaytheuser'ssearchresults.2.prehensiveinformationcannotbecrawlingproblem,thismeta-searchenginebasedonNutchandscriptinterpreterengineRhino,binationofstaticanddynamicwebcrawlingstrategy,workofdynamicandstaticpagesofinformationcanbeobtainedintheinformationgatheringstage.3.Inthist

12>



播放器加载中,请稍候...
系统无法检测到您的Adobe Flash Player版本
建议您在线安装最新版本的Flash Player 在线安装


  本文关键词:基于MapReduce的分布式聚类搜索引擎设计与实现,由笔耕文化传播整理发布。



本文编号:79473

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/79473.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e25cc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com