基于大数据平台的百度式数据检索系统设计与实现
本文关键词:基于大数据平台的百度式数据检索系统设计与实现,由笔耕文化传播整理发布。
【摘要】:21世纪毫无疑问是互联网时代,如今互联网中的信息每天都在爆炸式的增长,面对海量数据的存储和分析,传统的集中式搜索引擎显得拙荆见肘。因此人们提出了分布式搜索引擎的策略。分布式文件系统基于云计算可以合理的利用硬件资源,进行高效的并行检索。互联网每天产生的海量数据都是宝贵的财富,但是没有搜索引擎它们只是一堆杂乱的数据,需要耗费大量的人力去挖掘。传统的搜索引擎都是采用关键字匹配查询,无法揣测人们的意图,使得用户很难精准的获得自己想要的信息,因此搜索引擎的分布式智能化是未来发展的趋势。对于企业来说一个数十万员工的企业,分支机构分布在世界各地,需要在企业内部门户上提供面向全体员工的统一搜索服务,搜索的内容包括企业内应用所产生的业务数据以及企业员工相关信息。大部分企业不能充分发掘自身数据的价值,比如说现在企业数据中大多数是非结构化数据,这其中包括了Word文档,Excel表格,PDF文件,扫描图片,电子邮件,电话记录、语音留言、纸质文档、照片、网页、视频以及其他形式的内容。由于很多企业缺乏能够理解并有效利用这些内容的技术,使得非常有价值又充满战略意义的资源常常无法发挥其作用。企业数据多且杂缺少统一管理平台,业务人员缺乏技术支持,对底层数据结构不熟悉只能通过技术人员提数,效率很低。那么一款基于自然语言的智能云搜索系统对于企业的价值是不可估量的。本系统基于大数据平台通过新建移动行业专业术语词库、自学习的动态语义网解析模型,采用Lucene/Solr分词服务器,实现了使用人员可以输入自然语言检索经分数据。通过动态语义网语义解析模型,系统可自动收集、分析、丰富词条语义,持续完善“自然语言与技术语言”对应词库。利用元数据配置库和统一计算框架实现异构数据访问,融合文件、传统数据库、XML、MPP和HADOOP等结构化/非结构化的多种类型平台数据,信息查询服务由平台统一提供;利用智能任务协同,实现查询分布式处理,快速响应信息查询服务。系统还通过利用Spark Streaming流处理技术,采用内存索引方式,建立后台数据的增量索引更新机制,及时向使用者提供最新数据情况。
【关键词】:智能云搜索 数据检索 企业级检索 Big Data
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52;TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-11
- 第一章 绪论11-18
- 1.1 选题依据和意义11-12
- 1.2 搜索引擎简介12-13
- 1.3 国内外研究现状13-16
- 1.3.1 国外研究综述13-15
- 1.3.2 国内研究综述15
- 1.3.3 搜索引擎的发展趋势15-16
- 1.3.4 国内外研究的结果分析16
- 1.4 研究的主要内容16
- 1.5 章节安排16-18
- 第二章 相关技术介绍18-32
- 2.1 Hadoop与大数据18-23
- 2.1.1 HDFS19-20
- 2.1.2 MapReduce20-21
- 2.1.3 HBase21-22
- 2.1.4 Hive22-23
- 2.2 Lucene23-24
- 2.3 Solr24-25
- 2.4 Spark Streaming(流处理技术)25-27
- 2.5 Bootstrap(Web前端CSS框架)27-28
- 2.6 Apache+Tomcat28-30
- 2.7 DB2数据库30-31
- 2.8 本章小结31-32
- 第三章 企业级智能云搜索系统可行性和需求分析32-38
- 3.1 建立企业级数据检索系统的可行性分析32-33
- 3.1.1 技术可行性分析32
- 3.1.2 经济可行性分析32-33
- 3.2 智能云搜索系统需求背景33
- 3.3 结合应用场景分析33-37
- 3.4 架构初步设计37
- 3.5 本章小节37-38
- 第四章 智能云搜索系统概要设计及详细设计38-49
- 4.1 方案说明38-39
- 4.2 分词设计39-42
- 4.2.1 词库建立39-40
- 4.2.2 词性标注40-41
- 4.2.3 中间语言生成41
- 4.2.4 转换标准SQL41-42
- 4.3 DB2优化42-44
- 4.4 分布式搜素引擎设计44-46
- 4.4.1 设计目标44
- 4.4.2 总体设计44-46
- 4.5 数据更新机制和其他设定46-47
- 4.6 权限管控47-48
- 4.7 原始设计结果呈现48
- 4.8 本章小结48-49
- 第五章 系统实现49-66
- 5.1 功能实现架构设计图49-50
- 5.2 系统目录结构50
- 5.3 自然语言解析词库50-57
- 5.3.1 Lucene引擎包51-52
- 5.3.2 Solr配置52-54
- 5.3.3 SQL运用54-55
- 5.3.4 词库的实现55-57
- 5.4 混搭架构下的任务协同计算框架57-63
- 5.4.1 分布式文件存储57-59
- 5.4.2 云计算59-60
- 5.4.3 云数据处理60-61
- 5.4.4 实时索引61
- 5.4.5 分布式搜素引擎的实现61-63
- 5.5 Web前端页面63-65
- 5.5.1 Web服务器63-64
- 5.5.2 用户界面效果64-65
- 5.6 本章小结65-66
- 第六章 系统测试66-73
- 6.1 测试目标66-67
- 6.2 功能测试67-69
- 6.2.1 测试环境67
- 6.2.2 用户登录系统测试67-68
- 6.2.3 搜索功能测试68
- 6.2.4 详细数据测试68-69
- 6.2.5 下载和打印功能测试69
- 6.3 性能测试69-70
- 6.3.1 服务器稳定性69-70
- 6.3.2 检索效率测试70
- 6.4 兼容性测试70
- 6.5 实时索引测试70-72
- 6.5.1 数据插入性能71
- 6.5.2 Maxmatches参数的影响71-72
- 6.5.3 总数据量的影响72
- 6.6 本章小节72-73
- 第七章 总结与展望73-75
- 7.1 总结73
- 7.2 展望73-75
- 致谢75-76
- 参考文献76-78
【相似文献】
中国期刊全文数据库 前10条
1 陈庆全;黄文明;崔亚楠;;基于改进跳跃表的数据检索系统应用[J];计算机系统应用;2008年12期
2 姚逸涛;彭宇扬;彭自成;;基于倒排表的数据检索优化系统[J];电脑与信息技术;2008年02期
3 钟求喜;朱昕;;分布式数据检索系统的设计与实现[J];湖南大学学报(自然科学版);2010年01期
4 辛黎升;;数据检索技术在遥测信息处理中的应用[J];战术导弹技术;1984年03期
5 陈峗;胡坚;汪超亮;李子扬;;基于REST Web Services的分布式遥感数据检索技术研究[J];计算机工程与设计;2010年14期
6 王金杰;周海芳;;基于语义的遥感影像数据检索关键技术研究[J];计算机与数字工程;2012年08期
7 谌晓欢,陈志刚;永平铜矿生产数据检索系统研究及应用[J];有色冶金设计与研究;2004年04期
8 周志坚;;基于移动Agent技术的试题数据检索系统的设计[J];科技咨询导报;2007年07期
9 赵坚;;混和编程增强FoxBASE~+管理软件的功能[J];金属矿山;1993年09期
10 杨大顺,陶明华,丁青;二次分档检索法[J];计算机研究与发展;1995年06期
中国重要会议论文全文数据库 前6条
1 周荣贵;李凌伟;刘怡;;MBase中图文数据检索的反馈策略[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 丛日建;孙国强;;基于QB编码的数据检索方法[A];第三届全国信息获取与处理学术会议论文集[C];2005年
3 单广荣;于洪志;李应兴;满正行;;藏文古籍保护技术的元数据检索技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 张卫强;刘加;;网络音频数据检索技术[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
5 刘仁进;;MICAPS2.0数据接口及数据检索程序的若干改进[A];2007年湖北省气象学会学术年会暨全省青年气象科技工作者学术交流会议学术论文详细文摘汇集[C];2007年
6 郭燕;;我国服装行业专利保护现状研究[A];中国纺织工业发展报告(2008/2009)[C];2009年
中国重要报纸全文数据库 前2条
1 徐枫邋宦茂盛;元数据检索按图索骥[N];计算机世界;2007年
2 徐枫邋宦茂盛;如何对信息资源分类[N];计算机世界;2007年
中国博士学位论文全文数据库 前1条
1 袁贞明;基于样例的空间数据检索技术研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 王心慧;云环境下基于安全k近邻的加密数据检索技术研究[D];南京信息工程大学;2015年
2 王叠;基于局部相似性的运动捕捉数据检索[D];山东大学;2015年
3 林久对;一种基于HBase的海量空间遥感数据检索系统[D];浙江大学;2015年
4 管明亮;基于大数据平台的百度式数据检索系统设计与实现[D];电子科技大学;2015年
5 庞欢;基于最优搜索的分布式数据检索技术[D];电子科技大学;2008年
6 姚臻佳;RFID公共服务体系研究与实现[D];上海交通大学;2009年
7 李博;汽车导航系统中数据检索功能的研究与实现[D];东北大学;2006年
8 赵薇;P2P技术在分布式数据检索中的应用研究[D];东北财经大学;2007年
9 韩天坛;基于Clucene的个人数据检索支撑系统的设计与实现[D];北京邮电大学;2011年
10 张卓;结构化电子病历的数据检索[D];华中科技大学;2005年
本文关键词:基于大数据平台的百度式数据检索系统设计与实现,,由笔耕文化传播整理发布。
本文编号:254595
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/254595.html