基于LUCENE的藏文全文检索系统研究与实现
发布时间:2021-09-30 02:16
近年来,通过国家一些专项项目的实施,使藏文信息处理研究和开发领域取得了长足的发展,从标准统一到关键性藏文基础软件开发等各方面都取得了突破性成果,具备了进一步研究和开发的先决条件。然而,藏文信息处理技术发展处于起步阶段,藏文全文检索系统等应用系统缺口突出,作为信息社会里人们获取信息不可或缺的工具,研究实现藏文全文检索系统,即是本文努力所在。藏文全文检索系统研究内容包括传统领域的字、词、句子、段落、文章的语法知识,以及信息处理领域的信息检索原理、分词技术、查询方法、文档相关性排序算法等知识。同时,还需要解决互联网信息冗余大、质量良莠不齐、格式繁多、位置分散、关联复杂、用户需求表达难等问题。LUCENE作为开放源代码的全文检索工具包,通过其框架规范,扩展相关功能,以实现目标系统全文检索功能,成为解决以上问题的一种捷径。本文通过对全文检索理论及基于LUCENE全文检索系统的研究的基础上,得到如下成果:第一,设计实现基于LUCENE的藏文分词器,该分词器同时支持藏、汉、英三种语言的二元切分;第二,结合藏文句子的特性——句子主要成分间都通过格助词相连接来表达语义关系,提出了本文实现的藏文分词器的优...
【文章来源】:西藏大学西藏自治区 211工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
全文检索系统的功能和结构
… 2 1 2 2 1 1… 0.176 0.477 0.176 0.176 0.477 0.477用词项权重计算 Wi,j=tfi,j idfi,利用该公式计算以上词项的 2-4 所示:表 2-4 词项在各文档和查询中的权重计算表… … 0.176 0.477 0.176 0 0.477 0.477… 0.352 0 0.176 0.176 0 0… 0 0 0 0.352 0 0… 0.176 0.477 0 0.176 0 0们把所有搜索出的文档向量及查询向量放到一个 N 维空间中,每个是我们就得到向量空间模型如图 2-3 所示:
.1 建立索引检索的最基本问题是给定一个查询串,如何高效地在文档集合里面搜索出包询串的文档。Google 号称 80 亿网页,Baidu 也有 10 亿网页,数量可谓巨大,当我们输入一个查询时,返回时间往往不到 1 秒,为什么这么快?为了适应多文档检索需求,就产生了对文本重新组织,并建立索引的方法,对所建立的索引进行查询后就能得出检索结果,大大提高了检索效率。根据方式不同,索引分为前向索引和倒排索引[17]。1.前向索引(Forward index)前向索引将每篇文档表示成 DocID 及其文本内容组成的类向量模式,例如: 1 为“ ”,文档 2 为“ ”,文档切分处理后变为“ / / / / / / / / / ”、“ / / / / / / ”,则前向索引方文档表示为如下图 2-4 所示(注:属于同一分类的格助词都归认为同一个词, ’和‘ ’,‘ ’和‘ ’等):
【参考文献】:
期刊论文
[1]藏文分词系统中紧缩格识别和藏字复原的算法研究[J]. 巴桑杰布,羊毛卓玛,欧珠. 西藏科技. 2012(02)
[2]Lucene排序算法的个性化改进[J]. 陈忱. 科技与企业. 2012(02)
[3]经典信息检索模型的分类比较[J]. 于莉. 软件. 2011(03)
[4]基于Lucene的藏文信息采集及检索系统研究[J]. 蒋明原,孔令德. 电脑开发与应用. 2011(02)
[5]基于藏语信息处理的词类体系研究[J]. 扎西加,索南尖措. 西藏大学学报(自然科学版). 2008(01)
[6]用JSP调用Lucene包来实现全文检索——利用基于Tomcat的Web服务器[J]. 陆云. 电脑学习. 2007(03)
[7]Web文本挖掘中的特征表示与特征提取技术[J]. 陈淑珍. 三明高等专科学校学报. 2004(02)
[8]基于大型藏文语料库的藏文字符、部件、音节、词汇频度与通用度统计及其应用研究[J]. 卢亚军,马少平,张敏,罗广. 西北民族大学学报(自然科学版). 2003(02)
[9]基于p范式模型的检索[J]. 迟呈英,战学刚,姚天顺. 中文信息学报. 2000(04)
硕士论文
[1]基于Lucene的全文检索系统的研究与实现[D]. 高欣.天津师范大学 2010
[2]信息检索中的查询扩展技术研究[D]. 李新友.广西师范大学 2010
[3]中文信息检索系统研究[D]. 李立.华中师范大学 2008
[4]Web主题网页内容安全监管研究[D]. 张琼.西安电子科技大学 2008
[5]中文自动分词若干技术的研究[D]. 柴宝杰.燕山大学 2007
本文编号:3414923
【文章来源】:西藏大学西藏自治区 211工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
全文检索系统的功能和结构
… 2 1 2 2 1 1… 0.176 0.477 0.176 0.176 0.477 0.477用词项权重计算 Wi,j=tfi,j idfi,利用该公式计算以上词项的 2-4 所示:表 2-4 词项在各文档和查询中的权重计算表… … 0.176 0.477 0.176 0 0.477 0.477… 0.352 0 0.176 0.176 0 0… 0 0 0 0.352 0 0… 0.176 0.477 0 0.176 0 0们把所有搜索出的文档向量及查询向量放到一个 N 维空间中,每个是我们就得到向量空间模型如图 2-3 所示:
.1 建立索引检索的最基本问题是给定一个查询串,如何高效地在文档集合里面搜索出包询串的文档。Google 号称 80 亿网页,Baidu 也有 10 亿网页,数量可谓巨大,当我们输入一个查询时,返回时间往往不到 1 秒,为什么这么快?为了适应多文档检索需求,就产生了对文本重新组织,并建立索引的方法,对所建立的索引进行查询后就能得出检索结果,大大提高了检索效率。根据方式不同,索引分为前向索引和倒排索引[17]。1.前向索引(Forward index)前向索引将每篇文档表示成 DocID 及其文本内容组成的类向量模式,例如: 1 为“ ”,文档 2 为“ ”,文档切分处理后变为“ / / / / / / / / / ”、“ / / / / / / ”,则前向索引方文档表示为如下图 2-4 所示(注:属于同一分类的格助词都归认为同一个词, ’和‘ ’,‘ ’和‘ ’等):
【参考文献】:
期刊论文
[1]藏文分词系统中紧缩格识别和藏字复原的算法研究[J]. 巴桑杰布,羊毛卓玛,欧珠. 西藏科技. 2012(02)
[2]Lucene排序算法的个性化改进[J]. 陈忱. 科技与企业. 2012(02)
[3]经典信息检索模型的分类比较[J]. 于莉. 软件. 2011(03)
[4]基于Lucene的藏文信息采集及检索系统研究[J]. 蒋明原,孔令德. 电脑开发与应用. 2011(02)
[5]基于藏语信息处理的词类体系研究[J]. 扎西加,索南尖措. 西藏大学学报(自然科学版). 2008(01)
[6]用JSP调用Lucene包来实现全文检索——利用基于Tomcat的Web服务器[J]. 陆云. 电脑学习. 2007(03)
[7]Web文本挖掘中的特征表示与特征提取技术[J]. 陈淑珍. 三明高等专科学校学报. 2004(02)
[8]基于大型藏文语料库的藏文字符、部件、音节、词汇频度与通用度统计及其应用研究[J]. 卢亚军,马少平,张敏,罗广. 西北民族大学学报(自然科学版). 2003(02)
[9]基于p范式模型的检索[J]. 迟呈英,战学刚,姚天顺. 中文信息学报. 2000(04)
硕士论文
[1]基于Lucene的全文检索系统的研究与实现[D]. 高欣.天津师范大学 2010
[2]信息检索中的查询扩展技术研究[D]. 李新友.广西师范大学 2010
[3]中文信息检索系统研究[D]. 李立.华中师范大学 2008
[4]Web主题网页内容安全监管研究[D]. 张琼.西安电子科技大学 2008
[5]中文自动分词若干技术的研究[D]. 柴宝杰.燕山大学 2007
本文编号:3414923
本文链接:https://www.wllwen.com/tushudanganlunwen/3414923.html