当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于相关词识别的数据库全文检索研究

发布时间:2017-09-05 18:40

  本文关键词:基于相关词识别的数据库全文检索研究


  更多相关文章: 相关词识别 数据库全文检索 lucene 相关词搜索


【摘要】:随着计算机的大量普及,各行各业的信息化进程也不断加快,各种信息化系统不断涌现。数据库作为应用系统的数据来源,随着这些信息系统的长期使用,数据库中的各种业务数据不断积累,如何从这大量的数据中快速找到需要的信息推动了我们对数据库全文检索的研究。 针对上述需求,本文在信息系统中设计实现了数据库全文检索框架,在比较两种全文索引实现的优缺点后,基于开源搜索引擎lucene来创建索引和搜索索引,完成对数据库的全文检索。并用增量索引的方式对索引库进行维护。 Lucene提供的对索引的搜索是针对关键词的精准搜索。但是由于生活中人们对同一事物的描述千差万别,所以这样的搜索就会导致结果不够全面。这需要检索系统自动识别用户的意图,能够全面合理的检索到用户希望看到的结果,这就对中文同义词的识别技术提出了更严格的要求。鉴于上述问题,本文深入研究了同义词识别的相关算法,利用数据库中已有的大量数据改进同义词识别的算法应用于大数据中提取相关词,借此构造应用于本系统的相关词词库。在此相关词词库的基础上,在数据库全文检索框架中加入对相关词的识别,并针对在加入相关词后的检索结果排序问题对lucene自带的排序算法做了改进,把相关词和关键词对结果的影响的重要度区分开来。实验结果表明,这种方法扩展了搜索结果,提高了检索系统的查全率。 目前国内对中文同义词识别方面的研究才刚刚开始,在搜索引擎中的应用也不能尽如人意。本文以高校信息管理系统的应用为背景,以学科相关词的识别为目的,参考同义词识别方面的相关算法思想,结合lucene构建了一个支持相关词识别的数据库全文检索模型,改进同义词识别方法应用于相关词词库的构造中,从学科门类中基于概念树的语义相似度算法计算概念问的相似度,根据相似度的大小来确定相关词,另一方面,从现有的论文数据中基于统计的相关思想提取相关词。通过相关词词库的构造,把相关词的识别应用于全文检索中。在基于向量空间模型的基础上,把关键词对结果的影响大小用相关度的概念来描述,设计了合理的结果排序方法。
【关键词】:相关词识别 数据库全文检索 lucene 相关词搜索
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13;TP391.3
【目录】:
  • 摘要10-12
  • ABSTRACT12-14
  • 第一章 绪论14-21
  • 1.1 研究背景和研究意义14-15
  • 1.1.1 研究背景14-15
  • 1.1.2 研究意义15
  • 1.2 国内外研究现状15-18
  • 1.2.1 数据库全文栓索技术的研究现状15-16
  • 1.2.2 同义词识别技术的研究现状16-18
  • 1.3 本文主要工作18-19
  • 1.3.1 主要研究内容18-19
  • 1.3.2 创新点19
  • 1.4 本文组织结构19-21
  • 第二章 数据库全文检索框架设计21-36
  • 2.1 全文检索技术21-23
  • 2.2 lucene技术简介23-27
  • 2.2.1 lucene系统结构23-24
  • 2.2.2 lucene功能24-26
  • 2.2.3 lucene优缺点26-27
  • 2.3 中文分词27-28
  • 2.4 数据库全文检索系统架构与工作原理28-35
  • 2.4.1 系统架构设计28
  • 2.4.2 创建索引模块的设计28-32
  • 2.4.3 搜索索引模块的设计32-34
  • 2.4.4 索引维护34-35
  • 2.5 本章小结35-36
  • 第三章 基于高校信息系统的相关词库的生成36-45
  • 3.1 引言36-37
  • 3.2 常用的同义词识别算法37-38
  • 3.3 相关词词库的建立38-42
  • 3.3.1 把学科相关词抽取出来加入相关词词库38-40
  • 3.3.2 成果信息中抽取相关词加入相关词词库40-42
  • 3.4 相关词词库的存储及更新42-44
  • 3.4.1 词库的存储42-43
  • 3.4.2 词库的更新43-44
  • 3.5 本章小结44-45
  • 第四章 相关词检索的设计45-51
  • 4.1 引言45-46
  • 4.2 相关词检索原理介绍46-48
  • 4.2.1 加入相关词检索的数据库全文检索系统架构设计46-47
  • 4.2.2 相关词加入全文检索的实现原理47-48
  • 4.3 相关词检索的结果排序48-51
  • 第五章 系统设计与实现51-57
  • 5.1 系统设计51-52
  • 5.2 系统主要功能模块实现52-55
  • 5.2.1 数据库全文检索模块的实现52-53
  • 5.2.2 相关词搜索的实现53-55
  • 5.3 实验结果分析55-57
  • 第六章 总结与展望57-59
  • 6.1 总结57-58
  • 6.2 展望58-59
  • 参考文献59-62
  • 致谢62-63
  • 攻读硕士期间发表的论文63-64
  • 攻读硕士期间参加项目情况64-65
  • 学位论文评阅及答辩情况表65

【参考文献】

中国期刊全文数据库 前9条

1 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期

2 杨宝峰;;数据库全文检索技术[J];黑龙江科技信息;2007年05期

3 宋震,郭海霞;浅析基于超文本的全文检索技术[J];津图学刊;2003年04期

4 张枝令;;结构化数据及非结构化数据的分类方法[J];宁德师专学报(自然科学版);2007年04期

5 陆勇,侯汉清;用于信息检索的同义词自动识别及其进展[J];南京农业大学学报(社会科学版);2004年03期

6 刘华梅,侯汉清;基于情报检索的汉语同义词识别初探[J];情报理论与实践;2005年04期

7 宋明亮;汉语词汇字面相似性原理与后控制词表动态维护研究[J];情报学报;1996年04期

8 陆勇;侯汉清;;基于PageRank算法的汉语同义词自动识别[J];西华大学学报(自然科学版);2008年02期

9 徐叶强;朱艳辉;栗春亮;王文华;;基于Lucene的海量数据库全文检索的设计与实现[J];湖南工业大学学报;2011年02期



本文编号:799653

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/799653.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0298d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com