基于生物医学数据的搜索系统的设计与实现
本文选题:Solr + 索引 ; 参考:《宁夏大学》2017年硕士论文
【摘要】:随着网络信息化的快速发展,人们越来越多地关注如何快速有效地从大量的网络信息中抽取出潜在的、有价值的信息。互联网搜索引擎应运而生,它解决了用户检索网络信息的难题,是人们获取信息极为有力的工具。当前对搜索引擎的研究是互联网技术中最为热门的领域之一。随着越来越深入的研究,搜索引擎技术正在不断的向前发展。同时,搜索引擎的设计与实现是一项庞大的工程,要运用较多专业技术知识,造成了搜索引擎研究开发的门槛较高,制约着搜索引擎的普及。Solr是开源的企业级搜索引擎服务器,它对外提供类似于Web-service的API接口。用户可以通过HTTP请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过HTTP Get操作提出查找请求,并得到XML格式的返回结果。其具备高效、独立等特点,其已经广受关注。本文研究并实现了一个基于生物医学数据的Solr搜索系统的实例。系统分为三大模块,分别是数据处理模块、索引模块、搜索模块。本系统通过对SolrJ的研究和使用,在Java EE架构的基础上,首先对生物医学数据进行分析和处理,将生物医学数据处理为计算机中通用的XML文档格式,使处理后的数据可以应用于Solr搜索系统中;然后通过研究SolrJ源码,对处理后的文档进行解析,将解析得到的内容提交到Solr搜索服务器进行分词和建立索引;在搜索模块中,在前端页面输入查询关键字,查询请求提交到Solr搜索服务器进行响应,响应结果返回到前端页面。
[Abstract]:With the rapid development of network information, people pay more and more attention to how to extract potential and valuable information from a large number of network information quickly and effectively. Internet search engine emerges as the times require. It solves the problem of searching network information for users and is a powerful tool for people to obtain information. At present, the research on search engine is one of the most popular fields in Internet technology. With more and more in-depth research, search engine technology is constantly developing. At the same time, the design and implementation of search engine is a huge project, to use more professional technical knowledge, resulting in a higher threshold of search engine research and development, restricting the popularity of search engines. Solr is an open source enterprise search engine server. It provides API interfaces similar to Web-service. The user can submit a certain format XML file to the search engine server through HTTP request and generate index, and can also make a search request through HTTP Get operation, and get the return result of XML format. Its high efficiency, independence and other characteristics, it has been widely concerned about. An example of Solr search system based on biomedical data is studied and implemented in this paper. The system is divided into three modules, data processing module, index module, search module. Through the research and use of SolrJ, based on the framework of Java EE, this system firstly analyzes and processes biomedical data, and then processes the biomedical data into the common XML document format in computer. The processed data can be applied to the Solr search system. Then, by studying the SolrJ source code, the processed documents are parsed, and the parsed content is submitted to the Solr search server for word segmentation and indexing. The query key is input in the front page, the query request is submitted to the Solr search server for response, and the response result is returned to the front page.
【学位授予单位】:宁夏大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【参考文献】
相关期刊论文 前5条
1 郑亦梁;;基于Hadoop的分布式搜索引擎研究[J];通讯世界;2016年10期
2 孙磊;胡学龙;张晓斌;李云;;生物医学大数据处理的云计算解决方案[J];电子测量与仪器学报;2014年11期
3 李伟;;基于Nutch和Hadoop的分布式搜索引擎探究[J];信息通信;2012年05期
4 谭月辉;肖冰;陈建泗;齐京礼;李志勇;;Jena推理机制及应用研究[J];河北省科学院学报;2009年04期
5 欧勤坪;余建桥;;基于SpringMVC+iBATIS框架的生物信息数据库的设计与实现[J];西南大学学报(自然科学版);2008年11期
相关硕士学位论文 前10条
1 武志强;基于SpringMVC和MyBatis框架的理财规划系统的设计与实现[D];北京交通大学;2016年
2 李昕南;基于SpringMVC的一站式缴费系统的设计与实现[D];吉林大学;2016年
3 高玉民;基于solr的搜索系统设计与实现[D];华南理工大学;2015年
4 宋梦梦;基于生物医学知识库的数据挖掘的应用及研究[D];兰州大学;2015年
5 李雪利;基于Solr的企业搜索引擎的研究与实现[D];浙江理工大学;2013年
6 范晨熙;基于Hadoop的搜索引擎的研究与应用[D];浙江理工大学;2013年
7 代万能;倒排索引技术在Hadoop平台上的研究与实现[D];电子科技大学;2013年
8 张新生;基于solr的分布式搜索引擎研究[D];华中科技大学;2012年
9 王小森;基于Solr的搜索引擎的设计与实现[D];北京邮电大学;2011年
10 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
,本文编号:1846682
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1846682.html