基于MapReduce全文检索系统设计与实现
本文关键词:基于MapReduce全文检索系统设计与实现
更多相关文章: MapReduce 全文检索 分类索引 Lucene 检索效率
【摘要】:在上世纪90年代,以因特网为代表的计算机网络还是少量研究人员使用的高深技术,但是很快就和计算机硬件一起以极其惊人的速度进入到普通民众的生活中。同时,计算机上产生的数据越来越多。如何在大量信息中找到有用信息成为研究者们关注的焦点。这过程中一批通用搜索引擎诞生,例如Google、Yahoo、百度等。搜索引擎的发展越来越呈现出被少数几个公司掌控的局面,而通用搜索引擎在机构内部常常无法满足用户的搜索需求。本文采用开源的Apache分布式框架Hadoop与全文检索引擎框架Lucene来完成在相对规模较大、产生文件量较多的局域网范围内实现分布式搜索引擎。设计方案主要分为三个部分:第一部分针对用户提交的源文件建立索引,存储到HDFS中,提出了分类策略,针对不同文件格式分别建立索引,独立存储索引文件,解决了以往单机环境下索引数据量过大而成为服务器处理瓶颈的问题,同时还保存了源文件的分类特征;第二部分根据用户提交的检索关键词,在第一部分建立的分类索引文件中检索出结果后返回给用户,本文提出采用基于远程过程调用进行数据统计的方式解决了分布式环境下衡量检索关键词与检索结果相关性计算中部分计算因子在获取上存在障碍的问题;第三部分利用用户检索的历史结果,提供用户在历史检索结果中快速检索。本文针对响应速度的要求,借鉴操作系统中缓存的思想,充分利用用户的历史检索记录挖掘用户检索行为规律,提出基于历史检索记录的快速检索方案,该方案针对被常检索到的文件,建立单独的索引进行存储,在用户选择快速检索时将优先在该基于用户历史检索记录挖掘出的被频繁检索的文档单独建立的索引文件中进行检索。该系统采用快速检索与全局检索相结合的方式,在分布式环境下实现了搜索引擎的基本功能,并且已经投入实际应用。
【关键词】:MapReduce 全文检索 分类索引 Lucene 检索效率
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-9
- 第1章 绪论9-15
- 1.1 论文研究背景及意义9-11
- 1.1.1 论文研究背景9-11
- 1.1.2 本文工作意义11
- 1.2 国内外研究现状11-13
- 1.3 论文研究内容13
- 1.4 论文组织结构13-15
- 第2章 相关技术15-29
- 2.1 HDFS与MapReduce15-22
- 2.1.1 分布式文件系统HDFS15-19
- 2.1.2 分布式编程模型MapReduce19-22
- 2.2 搜索引擎框架Lucene介绍22-27
- 2.2.1 Lucene索引框架24-26
- 2.2.2 Lucene检索流程26-27
- 2.3 本章小结27-29
- 第3章 基于文件分类的分布式索引生成方法29-41
- 3.1 问题描述29-30
- 3.2 基于分类策略分布式索引30-39
- 3.3 方法有效性分析39
- 3.4 本章小结39-41
- 第4章 基于MapReduce的分布式检索方法41-53
- 4.1 问题描述41-42
- 4.2 检索结果相关性计算42-51
- 4.2.1 检索结果相关性分析43-44
- 4.2.2 基于远程过程调用的检索结果相关性数据统计44-50
- 4.2.3 基于分布式编程模型的检索50-51
- 4.3 本章小结51-53
- 第5章 基于历史检索记录的快速检索方法53-61
- 5.1 问题描述53-54
- 5.2 历史检索记录在搜索引擎中的作用分析54-56
- 5.3 基于历史检索记录的快速检索56-59
- 5.3.1 基于历史记录挖掘的频繁文档索引生成56-57
- 5.3.2 快速检索57-59
- 5.3.3 基于历史检索记录索引的维护59
- 5.4 本章小结59-61
- 第6章 测试结果与分析61-69
- 6.1 分布式全文检索框架搭建61-62
- 6.2 系统的部署62-65
- 6.3 实验与分析65-68
- 6.3.1 测试方案完成任务情况65-66
- 6.3.2 与单机环境下检索系统的对比66-67
- 6.3.3 与部分分布式环境下检索系统的对比67-68
- 6.4 本章小结68-69
- 第7章 总结与展望69-71
- 7.1 总结69
- 7.2 展望69-71
- 参考文献71-75
- 致谢75
【相似文献】
中国期刊全文数据库 前10条
1 宗宁;小型中文全文检索系统的设计与实现[J];电脑知识与技术;2005年14期
2 刘宁,陈光祚,路学;论全文检索系统[J];现代图书情报技术;1989年04期
3 陈光祚;论全文检索系统[J];武汉大学学报(社会科学版);1989年06期
4 陈睿,陈光祚,谢新洲;湖北省地方志全文检索系统(续)[J];情报理论与实践;1991年03期
5 杨则正;Calera's Wordscan全文检索系统[J];管理科学文摘;1997年09期
6 王梅;全文检索系统的分析与选择[J];图书情报工作;1999年06期
7 谢授麟;水利水电技术标准全文检索系统[J];水利规划设计;2000年02期
8 余海燕,张仲义;基于单汉字索引的全文检索系统的优化研究[J];中文信息学报;2001年04期
9 纪蔚蔚;公安文献全文检索系统中超文本技术的运用[J];公安大学学报(自然科学版);2002年04期
10 孙咏波;郭红锋;;天文文献全文检索系统的研究与实现[J];天文研究与技术;2007年03期
中国重要会议论文全文数据库 前2条
1 赵慧;李春明;鲍可进;;一种基于DotLucene搜索引擎的知识库中文全文检索系统[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 周小庭;;用Info Digger全文检索系统构建首都师大基教中心网上平台[A];OA’99办公自动化全国学术研讨暨展示会论文集[C];1999年
中国重要报纸全文数据库 前2条
1 肖诗斌;全文检索技术的深层剖析[N];中国计算机报;2003年
2 罗懿;世纪永联搜索引擎获奖[N];中国企业报;2000年
中国博士学位论文全文数据库 前1条
1 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 黄小文;基于NoSQL存储的海量文档全文检索系统的研究与实现[D];华北电力大学;2015年
2 张雯;TextRank算法的改进及在政法全文检索系统中的应用[D];广西大学;2015年
3 陶化忠;基于MapReduce全文检索系统设计与实现[D];东北大学;2014年
4 何胜利;矿山法律法规全文检索系统的研究与应用[D];西安建筑科技大学;2005年
5 杨镒菲;基于云存储的分布式全文检索系统的设计与实现[D];华南理工大学;2012年
6 蔡晶晶;多文档全文检索系统的设计与开发[D];电子科技大学;2013年
7 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
8 刘超;专利全文检索系统的设计与实现[D];北京邮电大学;2010年
9 李秦;基于用户行为的全文检索系统个性化推荐研究[D];西南大学;2009年
10 席敏;基于单汉字索引的全文检索系统的研究与实现[D];西安电子科技大学;2010年
,本文编号:721401
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/721401.html