跨语言信息检索技术的研究与实现
发布时间:2021-10-11 01:36
在信息检索领域,由于当今海量信息资源所用语种的多样性和用户所掌握语言的差异性,导致人们在进行文本信息检索的时候产生语言障碍问题。而随着用户对多语言信息综合获取的需求不断增长,跨语言信息检索技术迅速发展,并将日益发挥重要作用。目前大多数跨语言信息检索采用提问式翻译方法,而如何提高翻译的准确性成为跨语言检索领域主要研究内容之一。本文在研究了跨语言信息检索相关关键技术的基础上,基于开放平台ApacheLucene设计实现了中英文跨语言检索系统。论文阐述了跨语言信息检索理论和现有技术,研究了跨语言信息检索中语言翻译和信息检索方法,设计了采用提问式翻译和语义映射的跨语言信息检索模型,解决了跨语言信息检索中的翻译歧义性问题;改进了信息索引流程和检索结果排序算法,提高了检索结果优先匹配的准确性;在分析了Lucene信息检索平台的体系结构和模块功能基础上,设计实现了中英文跨语言检索系统CLIRS,并在应用环境中验证了跨语言信息检索模型的有效性和系统各模块功能。测试结果表明,CLIRS系统采用的中英文跨语言翻译模型以及结果排序算法更好地实现了中英文双向跨语言信息检索。
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
Lucene索引文件概念结构
所记录的域记录号维持对应关系,在图 3.4 中 segment1.fdx 与 segment1.tii 中就是通过这种方式保持联系。这样,域集合和项集合不仅仅联系起来,而且其中的文件之间也相互联系起来。此外,标准化因子文件和被删除文档文件则提供了一些程序内部的辅助设施(标准化因子用在评分排序机制中,被删除文档是一种伪删除手段)。这样,整个段的索引信息就通过这些文档有机的组成。图 3.3 Lucene 索引文件概念结构
WhitespaceAnalyzer处理文档集写索引文件生成索引文件结束图 3.5 建立索引流程 对英文的支持很好,而且分析器 StandardA容为中英文混合时,CLucene 为其建立的索看 CLucene 为文本建立的索引内容。 内容为:u 盘可以用来储存数据。 内容为:能储存数据的东西有 u 盘。 CLucene 为这两篇文本建立的索引内容如
【参考文献】:
期刊论文
[1]基于Lucene的中文倒排索引技术的研究[J]. 郑榕增,林世平. 计算机技术与发展. 2010(03)
[2]跨语言信息检索方法概述[J]. 骆卫华. 数字图书馆论坛. 2006(09)
[3]重新审视跨语言信息检索[J]. 闵金明,孙乐,张俊林. 中文信息学报. 2006(04)
[4]跨语言信息检索的发展与展望[J]. 任成梅. 图书馆学研究. 2006(04)
[5]信息检索技术的设计探讨[J]. 曹蓓蓓. 河北建筑科技学院学报. 2005(03)
[6]跨语言检索技术:策略与方法[J]. 赖茂生,侯艳飞. 郑州大学学报(哲学社会科学版). 2005(04)
[7]跨语言信息检索实现方法与关键技术探讨[J]. 王昊. 情报杂志. 2005(07)
[8]基于本体的跨语言信息检索模型[J]. 王进,陈恩红,张振亚,王煦法. 中文信息学报. 2004(03)
[9]论跨语言网络信息检索技术系统:以Mulinex为例[J]. 陆宝益,陆宝忠. 情报科学. 2001(08)
硕士论文
[1]基于Lucene的全文检索系统模型的研究[D]. 黄杰.暨南大学 2007
本文编号:3429538
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
Lucene索引文件概念结构
所记录的域记录号维持对应关系,在图 3.4 中 segment1.fdx 与 segment1.tii 中就是通过这种方式保持联系。这样,域集合和项集合不仅仅联系起来,而且其中的文件之间也相互联系起来。此外,标准化因子文件和被删除文档文件则提供了一些程序内部的辅助设施(标准化因子用在评分排序机制中,被删除文档是一种伪删除手段)。这样,整个段的索引信息就通过这些文档有机的组成。图 3.3 Lucene 索引文件概念结构
WhitespaceAnalyzer处理文档集写索引文件生成索引文件结束图 3.5 建立索引流程 对英文的支持很好,而且分析器 StandardA容为中英文混合时,CLucene 为其建立的索看 CLucene 为文本建立的索引内容。 内容为:u 盘可以用来储存数据。 内容为:能储存数据的东西有 u 盘。 CLucene 为这两篇文本建立的索引内容如
【参考文献】:
期刊论文
[1]基于Lucene的中文倒排索引技术的研究[J]. 郑榕增,林世平. 计算机技术与发展. 2010(03)
[2]跨语言信息检索方法概述[J]. 骆卫华. 数字图书馆论坛. 2006(09)
[3]重新审视跨语言信息检索[J]. 闵金明,孙乐,张俊林. 中文信息学报. 2006(04)
[4]跨语言信息检索的发展与展望[J]. 任成梅. 图书馆学研究. 2006(04)
[5]信息检索技术的设计探讨[J]. 曹蓓蓓. 河北建筑科技学院学报. 2005(03)
[6]跨语言检索技术:策略与方法[J]. 赖茂生,侯艳飞. 郑州大学学报(哲学社会科学版). 2005(04)
[7]跨语言信息检索实现方法与关键技术探讨[J]. 王昊. 情报杂志. 2005(07)
[8]基于本体的跨语言信息检索模型[J]. 王进,陈恩红,张振亚,王煦法. 中文信息学报. 2004(03)
[9]论跨语言网络信息检索技术系统:以Mulinex为例[J]. 陆宝益,陆宝忠. 情报科学. 2001(08)
硕士论文
[1]基于Lucene的全文检索系统模型的研究[D]. 黄杰.暨南大学 2007
本文编号:3429538
本文链接:https://www.wllwen.com/tushudanganlunwen/3429538.html