聚类反馈式电网资源分布搜索引擎研究与实现
发布时间:2017-09-09 23:40
本文关键词:聚类反馈式电网资源分布搜索引擎研究与实现
更多相关文章: 搜索引擎 分布式 Solr K-means 聚类反馈 企业级 电网
【摘要】:为应对当前企业信息规模的爆炸式膨胀和信息资源共享的普遍需求,企业级搜索引擎兴起了。同互联网搜索有很大不同,企业级搜索是为组织业务决策和运转而服务的,因而需要保证信息的查全率和查准率。企业级搜索要应对的难题有: 第一:对于企业TB级的数据,现有的集中式搜索引擎服务器难以满足索引的存储管理,需要多台服务器分布式存储索引;在多索引和检索任务并发执行的情况下,搜索引擎的性能急剧下降,须采用多台服务器分担任务保证工作效率。 第二:占企业信息资源总量80%以上的非结构化数据的数据量日趋增大,非结构化数据种类多且包含关系企业发展的重要信息,解决非结构化数据的检索对企业至关重要。 第三:搜索领域准确性的要求越来越高,多数搜索引擎返回记录众多且不按主题分类显示,用户很难在线性排列的结果集中快捷、准确地发现信息。搜索结果聚类可以从一定程度上帮助用户定位信息。 电网公司的信息化建设水平不断提升,急需一个电网资源搜索引擎满足人员查找数据信息。根据以上分析,借助分布式计算技术的优势,结合搜索引擎相关技术,设计并实现了一个能够有效处理海量数据,支持高并发任务且快速响应的电网资源分布式搜索引擎。另外,通过文本信息抽取和文本聚类技术,对检索结果集聚类展示,聚类反馈模式便于用户快速、准确定位文档。本文主要工作内容有: (1)基于电网专业词库,借助IKAnalyzer实现搜索引擎中文分词,结合全文检索技术和分布式计算,对搜索引擎的索引和检索子系统分别建模分析。 (2)对K-means文本聚类算法在初始簇心选择和K值确定方面进行了优化。基于最远距离选择初始簇心;根据K的可能取值进行聚类,评价聚类结果聚类均值的总方差并在可能取值集中确定K。测试后证明改进的算法在实现文本集自适应聚类的同时聚类效果良好。 (3)从整体上架构电网资源库搜索引擎,并对搜索引擎中的重要模块给出设计方案。借助Solr基于ZooKeeper分布式部署SolrCloud,实现分布式搜索引擎的细节。负载均衡策略和每个分布式有效节点协同合作。搜索引擎服务器采用分布式索引及搜索的策略,实现了海量数据的并行索引,并且支持大数量用户并发执行搜索任务。 (4)完成搜索引擎的分布式部署,对索引和检索性能进行测试,并通过搜索实例展示搜索引擎的检索功能和结果集聚类反馈功能。
【关键词】:搜索引擎 分布式 Solr K-means 聚类反馈 企业级 电网
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要5-7
- Abstract7-12
- 第一章 绪论12-18
- 1.1 课题研究背景与意义12-13
- 1.2 搜索引擎简介13-15
- 1.2.1 搜索引擎的发展与分类13-14
- 1.2.2 搜索引擎的体系结构14
- 1.2.3 当今搜索引擎重要的优化方向14-15
- 1.3 搜索引擎优化技术研究现状15-16
- 1.3.1 分布式搜索引擎的研究15
- 1.3.2 文本聚类技术在搜索引擎中的应用15-16
- 1.4 论文主要创新点16-18
- 第二章 搜索引擎相关技术18-32
- 2.1 全文检索技术18-22
- 2.1.1 反向索引技术19-20
- 2.1.2 检索技术20-22
- 2.2 全文检索技术的开源实现22-26
- 2.2.1 全文检索工具包Lucene22
- 2.2.2 全文检索服务器Solr22-23
- 2.2.3 分布式全文检索服务器So1rCloud23-26
- 2.3 文本聚类26-30
- 2.3.1 聚类技术27
- 2.3.2 K-means聚类算法27-29
- 2.3.3 度量相似性29-30
- 2.4 本章小结30-32
- 第三章 搜索引擎建模及聚类反馈的算法改进32-46
- 3.1 索引及搜索建模32-35
- 3.1.1 基于电力行业词库中文分词的实现32-33
- 3.1.2 企业文档索引库的建立33-34
- 3.1.3 搜索索引库34-35
- 3.2 基于K-means的聚类反馈算法改进35-38
- 3.2.1 基于最远距离的初始聚类中心选择方法36-37
- 3.2.2 初始参数K的确定37-38
- 3.3 改进K-means算法的文本聚类性能测试38-44
- 3.3.1 文本内容预处理设计39-41
- 3.3.2 实验文本集41
- 3.3.3 聚类实验分析41-44
- 3.4 标识聚类关键词的提取44
- 3.5 本章小结44-46
- 第四章 电网资源库搜索引擎设计46-52
- 4.1 电网资源库搜索引擎架构46-47
- 4.2 分布式搜索引擎服务器设计47-50
- 4.2.1 Solr处理单元的设计47-48
- 4.2.2 分布式协调子系统设计48-49
- 4.2.3 SolrCloud服务器集群结构设计49-50
- 4.3 负载均衡设计50
- 4.4 检索结果的聚类分析50-51
- 4.5 本章小结51-52
- 第五章 电网资源库分布式搜索引擎的部署与性能测试52-64
- 5.1 部署电网资源库搜索引擎52-53
- 5.1.1 ZooKeeper部署52
- 5.1.2 SolrCloud部署52-53
- 5.1.3 搜索引擎业务逻辑服务器部署53
- 5.2 搜索引擎索引和检索性能测试53-59
- 5.2.1 测试环境54
- 5.2.2 测试系统的结构54-55
- 5.2.3 索引性能测试55-57
- 5.2.4 搜索性能测试57-59
- 5.3 搜索引擎检索实例59-60
- 5.4 分类显示搜索结果60-62
- 5.5 本章小结62-64
- 第六章 工作总结与展望64-66
- 6.1 工作总结64
- 6.2 工作展望64-66
- 致谢66-68
- 参考文献68-72
- 附录A:攻读硕士学位期间参与项目及科研成果72
【参考文献】
中国期刊全文数据库 前10条
1 程志华;倪时龙;黄文思;龚贺;;企业级非结构化数据管理平台研究及实践[J];电力信息化;2012年03期
2 刘畅;;全文索引结构的研究[J];计算机光盘软件与应用;2012年24期
3 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
4 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
5 曾彪;;Solr学术索引应用显身手[J];中国教育网络;2010年10期
6 李戴维;李宁;;基于Solr的分布式全文检索系统的研究与实现[J];计算机与现代化;2012年11期
7 杨萍;李杰;;利用LoadRunner实现Web负载测试的自动化[J];计算机技术与发展;2007年01期
8 林碧英;赵锐;陈良臣;;基于Lucene的全文检索引擎研究与应用[J];计算机技术与发展;2007年05期
9 刘敏娜;;基于向量空间模型的信息检索技术研究[J];现代电子技术;2012年11期
10 鲜国建;赵瑞雪;;基于Solr的中文农业期刊文摘检索系统的构建研究[J];现代图书情报技术;2011年06期
中国博士学位论文全文数据库 前1条
1 周,
本文编号:823451
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/823451.html