当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Solr的企业异构信息搜索平台的设计与实现

发布时间:2017-04-04 08:08

  本文关键词:基于Solr的企业异构信息搜索平台的设计与实现,,由笔耕文化传播整理发布。


【摘要】:随着企业的规模日益增大,信息化程度不断提高,企业内部产生的海量数据分布在各个服务器节点上。如何精确、快速地查找到用户所需的信息是每一个大型企业都需要解决的问题。目前的通用搜索引擎虽然可以实现信息的检索,但是并没有满足企业的需求。首先,企业的需求更加复杂,对于不同的企业员工权限有严格的规定,每个用户可以查看的资源不同,工作任务有差异,信息的需求也不一样;其次,企业的信息种类千差万别,企业内部最多的是数据库数据以及文档,和以网页为主的Web资源不一样。通用搜索引擎对于企业用户来说并不能很好的完成任务,因此,本课题研究的目的是针对跨地区多数据中心的大型企业提出企业搜索引擎设计方案,该搜索引擎使得异构资源能够在统一的平台上融合与检索。同时优化搜索结果排序以及进行个性化结果推荐。基于上述分析,本文实现了一个基于Solr的企业异构信息搜索系统。本文的主要研究内容如下:(1) 利用开源网络爬虫工具Heritrix对异构信息进行智能抓取,并且研究了信息抽取、元数据、中文分词等技术,对异构资源的有效信息进行智能提取,建立异构信息索引模型,实现了异构信息融合搜索。(2) 应用开源搜索引擎Solr实现了对索引的增加、删除和修改,包括结构化数据索引和非结构化数据索引。同时Solr还实现了搜索引擎的查询,包括最基本的关键字查询,以及限定其他条件的高级查询。(3) 将Skyline算法引入搜索结果排序优化,可根据用户需求综合信息相关度得分和信息的发布时间两方面进行排序,以满足用户不同工作情景下的需求;根据用户的历史记录以及使用习惯进行个性化建模,推送适合用户的搜索结果。(4) 基于Zookeeper的系统监控设计,跨地区的多数据中心的企业可以实时监控服务器数量众多的集群状态,保证故障或者宕机的服务器上的信息不会被用户搜索到,内容相同的搜索结果从网络状况较好的节点获取,可以优化搜索体验。本文基于上述工作内容开发了基于Solr的企业异构信息搜索引擎系统原型,在实验环境中搭载了一个多数据中心的搜索引擎,对其构建了异构资源的索引并通过一系列测试得到了实验结果数据,证明了本文研究的相关技术与实践应用的可靠性,为企业搜索引擎提供了一种可行的解决方案。
【关键词】:企业搜索引擎 Solr 异构数据 个性化搜索
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 绪论10-12
  • 1.1 研究背景与意义10
  • 1.2 本文主要工作10-11
  • 1.3 本文组织结构11-12
  • 第二章 相关技术的研究12-30
  • 2.1 搜索引擎简介12-15
  • 2.1.1 搜索引擎的基本结构12-13
  • 2.1.2 传统搜索引擎的现状及不足13-14
  • 2.1.3 企业搜索引擎研究现状及不足14-15
  • 2.2 搜索引擎Solr15-16
  • 2.3 Hadoop简介16-17
  • 2.3.1 Hadoop和MapReduce16-17
  • 2.3.2 HBase17
  • 2.4 网络爬虫技术17-20
  • 2.4.1 网络爬虫基本原理17-18
  • 2.4.2 网络爬虫抓取策略18-19
  • 2.4.3 Heritrix简介19-20
  • 2.5 信息抽取技术20-22
  • 2.5.1 元数据20-21
  • 2.5.2 Tika介绍21-22
  • 2.6 信息处理技术22-24
  • 2.6.1 中文分词22-23
  • 2.6.2 主题分类23-24
  • 2.7 个性化用户模型24-27
  • 2.7.1 基于用户静态信息的个性化建模25
  • 2.7.2 基于用户动态信息的个性化建模25-26
  • 2.7.3 基于关联规则的个性化推荐26-27
  • 2.8 搜索引擎排序算法27-29
  • 2.8.1 PageRank算法27
  • 2.8.2 Solr的相关性排序算法27-28
  • 2.8.3 Skyline算法28-29
  • 2.9 本章小结29-30
  • 第三章 基于Solr的企业异构信息搜索平台的设计30-45
  • 3.1 平台需求分析30
  • 3.2 平台总体设计30-31
  • 3.3 信息采集处理层设计31-34
  • 3.3.1 信息采集处理层模块整体设计31-32
  • 3.3.2 异构数据模型32-34
  • 3.3.3 XML解析34
  • 3.4 按需搜索层设计34-37
  • 3.4.1 按需搜索层模块整体设计34-35
  • 3.4.2 去重策略35
  • 3.4.3 聚合策略35-36
  • 3.4.4 分类策略36-37
  • 3.5 个性化处理层设计37-40
  • 3.5.1 个性化处理层模块整体设计37
  • 3.5.2 基于Skyline算法的综合排序优化37-39
  • 3.5.3 个性化结果推荐39-40
  • 3.6 系统监控层设计40-41
  • 3.7 存储模块设计41-43
  • 3.7.1 数据库设计42
  • 3.7.2 HBase存储42-43
  • 3.8 企业权限管理设计43-44
  • 3.9 本章小结44-45
  • 第四章 基于Solr的企业异构信息搜索平台的实现45-69
  • 4.1 平台开发工具和环境45
  • 4.2 信息采集处理层实现45-54
  • 4.2.1 配置Solr索引字段45-46
  • 4.2.2 配置IKAnalyzer中文分词包46-48
  • 4.2.3 使用Heritrix抓取企业外部数据48-50
  • 4.2.4 使用Tika提取元数据50-51
  • 4.2.5 启动Solr51-53
  • 4.2.6 向Solr添加索引53-54
  • 4.3 按需搜索层实现54-58
  • 4.3.1 搜索请求解析54-55
  • 4.3.2 Solr查询55-56
  • 4.3.3 结果过滤策略56-58
  • 4.4 个性化处理层实现58-60
  • 4.4.1 基于Skyline算法的综合排序优化59
  • 4.4.2 用户个人静态信息采集59
  • 4.4.3 个性化推荐59-60
  • 4.5 系统监控层实现60-61
  • 4.6 平台测试61-68
  • 4.6.1 功能概述61
  • 4.6.2 平台功能展示61-64
  • 4.6.3 平台功能测试64-67
  • 4.6.4 平台性能测试67-68
  • 4.7 本章小结68-69
  • 第五章 总结与展望69-71
  • 5.1 全文工作总结69
  • 5.2 进一步展望69-71
  • 致谢71-72
  • 参考文献72-73

【相似文献】

中国期刊全文数据库 前10条

1 魏震方;宋正德;;云计算环境下异构信息的发现机制与管理方法研究[J];商场现代化;2011年23期

2 王乐,强晓远,孙莉;基于本体模型异构信息交互的研究[J];微型机与应用;2005年01期

3 董明哲,张同军;基于信息语义的异构信息集成方法[J];计算机工程;2005年02期

4 李艾丹;薛中玉;李春梅;;异构信息知识挖掘与可视化分析系统架构模型解析[J];中国科技论坛;2012年10期

5 李剑;宋靖宇;钟华;;基于本体的异构信息集成查询划分及转换[J];软件学报;2007年10期

6 李艾丹;薛中玉;李春梅;;异构信息知识挖掘与可视化系统处理流程解析[J];图书馆学研究;2012年14期

7 康文杰;郑倩冰;陈侃;;基于社会网络分析的学术合作关系研究[J];计算机技术与发展;2014年05期

8 史达;杨洋;;一种面向多层次异构信息平台的数据访问链路识别算法[J];信息与控制;2014年01期

9 刘钰峰;李仁发;;基于查询—文档异构信息网络的半监督学习[J];通信学报;2014年08期

10 徐寿芳;嵇美华;曾益坤;;基于本体的异构电子商务信息集成探析[J];绍兴文理学院学报(自然科学版);2008年01期

中国重要报纸全文数据库 前2条

1 陈友梅;DB2信息集成提速异构信息管理[N];中国计算机报;2003年

2 齐向真;我市两项目获科技部863计划批复[N];太原日报;2012年

中国博士学位论文全文数据库 前4条

1 黄冬;面向网络金融知识服务的模型与方法研究[D];哈尔滨工业大学;2015年

2 刘钰峰;异构信息网络检索技术研究[D];湖南大学;2014年

3 李朋;异构信息网络分析模型及其应用研究[D];重庆大学;2013年

4 王小刚;异构信息集成环境中基于语义的查询研究[D];华中科技大学;2006年

中国硕士学位论文全文数据库 前10条

1 朱敏;极性异构信息网络相关性搜索技术研究[D];山东大学;2015年

2 房佳;基于多级模型的金融异构信息获取与预测分析[D];哈尔滨工业大学;2014年

3 郝敬彬;融合异构信息的长途客车乘客异动情况觉察技术研究[D];浙江工业大学;2014年

4 邢欣;基于网络异构信息挖掘的新股知识服务研究[D];哈尔滨工业大学;2015年

5 丁蔚然;基于Solr的企业异构信息搜索平台的设计与实现[D];东南大学;2015年

6 罗琛;异构信息网络上半监督机器学习算法研究[D];吉林大学;2015年

7 王倩;异构信息网络上的主题建模研究[D];山东大学;2014年

8 吴晶;面向异构信息集成的数据服务通道的设计与实现[D];电子科技大学;2013年

9 李立;基于元路径选择和融合的异构信息网络社区挖掘算法研究[D];西安电子科技大学;2014年

10 肖颖;面向信息集成的异构信息描述方法研究[D];国防科学技术大学;2003年


  本文关键词:基于Solr的企业异构信息搜索平台的设计与实现,由笔耕文化传播整理发布。



本文编号:285184

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/285184.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户22d4a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com