基于Hadoop的分布式Web文本检索系统的研究与开发
本文选题:云计算 切入点:维吾尔语文本检索 出处:《新疆大学》2013年硕士论文 论文类型:学位论文
【摘要】:本文主要是Hadoop云平台上的Nutch分布式文本检索系统的研究和开发,,检索系统运行在由多台PC机组成的集群上,系统的数据处理采用MapReduce分布式编程模型,数据存储采用分布式文件系统HDFS,系统各模块之间通过HDFS来进行数据交互,数据爬虫模块将抓取后的原始数据存入HDFS的抓取数据库中,索引模块从HDFS上读取抓取的原始数据,并使用倒排索引的方法将建好的索引存储在HDFS上的索引数据库中,检索模块则从HDFS中查找索引,向用户返回结果,整个系统通过数据抓取、索引和检索等模块的协同工作来满足用户的检索请求。在确保Nutch在Hadoop上的正常运行后进行二次开发,即解决维吾尔文的在线输入及切换、网页布局、书写方向、字库嵌入等问题。建立了一个支持维吾尔文字的基于Hadoop的Web分布式文本检索系统。为了保障系统的可靠性,系统在设计上避免了单点故障,即在单个服务器瘫痪的情况下整个系统仍然可以正常工作,同时系统还采用了不同等级的备份措施,对所有数据都进行了不同程度的备份,提高了数据的安全性。 以下是在设计和研究的过程中所做的具体工作: 1.分析了Hadoop开源云计算平台和Nutch搜索引擎的相关技术、特点以及工作原理; 2.搭建具有三个节点的Hadoop平台; 3.在Hadoop平台上安装和配置Nutch开源搜索引擎; 4.根据维吾尔文的文字特征以及其处理的相关关键技术的基础上对Nutch进行了二次开发。
[Abstract]:This paper is mainly about the research and development of the Nutch distributed text retrieval system on the Hadoop cloud platform. The retrieval system runs on a cluster composed of multiple PCs. The data processing of the system adopts the MapReduce distributed programming model. The distributed file system (HDFS) is used for data storage, and the modules of the system interact with each other through HDFS. The data crawler module stores the captured raw data into the grabbing database of HDFS, and the index module reads the fetched raw data from HDFS. And the inverted index method is used to store the built index in the index database on HDFS. The retrieval module looks up the index from the HDFS and returns the result to the user. The whole system grabs the index through the data. After ensuring the normal operation of Nutch on Hadoop, the secondary development is carried out, which is to solve the online input and switch of Uygur language, the layout of web page, the direction of writing, and so on. This paper presents a Web distributed text retrieval system based on Hadoop, which supports Uygur characters. In order to ensure the reliability of the system, the system is designed to avoid a single point of failure. In the case of single server paralysis, the whole system can still work normally. At the same time, the system also uses different levels of backup measures, all the data are backed up to varying degrees, improving the security of the data. The following are specific work done in the design and research process:. 1. The related technologies, characteristics and working principles of Hadoop open source cloud computing platform and Nutch search engine are analyzed. 2. Build a three-node Hadoop platform; 3.install and configure Nutch open source search engine on Hadoop platform; 4. Based on the characters of Uygur language and the key technologies of Uygur language processing, the second development of Nutch is carried out.
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
2 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
3 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
4 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
5 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
6 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
7 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
8 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
9 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
10 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期
相关会议论文 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
相关重要报纸文章 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
相关博士学位论文 前10条
1 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
2 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
3 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
4 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年
5 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
8 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年
9 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
10 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
相关硕士学位论文 前10条
1 麦迪乃·热合木江;基于Hadoop的分布式Web文本检索系统的研究与开发[D];新疆大学;2013年
2 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
3 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
4 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
5 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
6 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
7 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
8 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
9 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
10 任强;基于谓词抽象与精化技术的Web服务验证研究[D];苏州大学;2011年
本文编号:1609080
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1609080.html