计算机检索心得_计算机检索论文
本文关键词:计算机检索,由笔耕文化传播整理发布。
计算机检索论文
人
相关热词搜索:
篇一:计算机检索技术论文
中文问答系统中的信息检索模型的研究
河北农业大学
计算机检索技术论文
姓名:
专业:计算机科学与技术1101班
学号:2011614530226
指导教师:
中文问答系统中的信息检索模型的研究
摘要
问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。 关键词:问答系统,信息检索,文档质量,语言模型,最大熵
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。
1绪论
随着科学技术发展,尤其是信息技术突飞猛进,一方面人们在理论上的信息拥有量不断膨胀不断丰富,一方面人们对信息的需求也与日俱增,对信息的质量和相关度的要求也越来越高, 现有的检索系统,无论是受限领域的检索还是互联网搜索引擎,一般都是基于关键字检索。
1.2本文的主要工作及篇章结构
本文首先对问答系统的背景和研究现状做出了阐述,然后介绍了中文问答系 统的体系结构。从功能和技术两个角度对现有问答系统进行划分,并分析各种系统的特及优缺点。然后从系统框架、系统资源以及自然语言本身对基于自然语言的中文问答系统进行了详细的介绍,与传统的搜索引擎做了一个横向的对比。紧接着对问答系统一个核心环节(信息检索环节)的四个模型进行了分析,通过将文档质量融入到检索模型中对现有的检索模型做出了改进,最后通过试验验证了这种改进的有效性。
本文篇章结构如下:
第一章介绍了问答系统的相关背景知识以及研究现状。
第二章分析了中文问答系统的体系结构。
第三章阐述了基于自然语言处理的中文问答系统的系统结构,还介绍了自然语言处理
第四章分析了四种传统的检索模型以及基于语言模型的检索模型的优缺点。
第五章结论
2中文问答系统的概述
2.1中文问答系统体系结构
中文问答系统除了需要具有一般问答系统的功能处理外,还需要考虑中文的特性,在自然语言处理中,中文在语法语义语用等诸方面都存在有别于西文的特性,比如分词处理和词性标注上面。因此,国外的先进技术往往不能直接应用,只有将国外成熟的技术模型与中文信息处理相结合,才能取得较好的结果。
2.2问答系统分类
现有问答系统的分类,大致可以分为:聊天机器人、基于知识库的问答系统、问答式检索系统以及基于自由文本的问答系统。
2.2。1聊天机器人
2.2.2基于知识库的问答系统
2.2.3问答式检索系统
2.2.4基于自由文本的问答系统
2.3问答系统技术分类
目前的问答按技术分为以下几类:基于事实性问题问答技术、基于问答模式匹配的问答技术和基于自然语言处理的问答技术,分别介绍如下。
2.3.1基于事实-性问题的问答技术
2.3.2基于问答模式匹配的问答技术
2.3.3基于自然语言处理的问答技术
3基于自然语言处理的中文问答系统概述
3.1系统框架
系统主要包括五个部分:问题理解、信息检索、信息处理、答案抽取、①问题理解(QuestionAnalysis);②信息检索(Information Retrieval);③信息处理(Inforraation Processing);④答案抽取(Answer Extraction).
3.2系统资源
基于自然语言的问答系统,其实现需要自然语言处理、知识聚类、数据挖掘等技术支撑。在充分利用这些技术的同时,也必须建立相应的系统资源。
3.3自然语言处理.
自然语言处理的任务是对语言的字、词、句、篇章的语音形式和书面形式进行输入、输出、统计、检索、识别、分析、理解和生成。研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。所以,计算语言学理论的任务是描述和解释自然语言的现象和规律,建立形式化的语言模型,并且提供相应的算法,使其得以在计算机上实现。自然语言处理的应用目标是使人与计算机之间用自然语言进行交流。具体说是建立各种处理自然语言的计算机应用软件系统。一般来说,科学研究转化为产品的过程是从理论研究、应用研究到应用技术。在我国的语言处理领域,人们也一直向往着能从某种语言理论衍生出相应的处理汉语的应用系统。然而,由于学科发展的局限性和汉语本身的复杂性。
4信息检索
4.1传统的检索模型
传统的信息检索,主要是起源于图书的管理学,早期通过人员的手动编制,对每笔资料定义其索引字(index term),用数个最符合文件内容的关键词来代表其整体含义,而用户只能透过关键词的输入来进书名或文件的检索:时至今日,检索模型主要衍生有几大类:布尔模型(Boolean Model)、模糊逻辑模型(Fuzzy LogicModel)、向量模(Vector Model)及概率模型(Probability Model)。
4.2基于语言模型的信息检索
1统计语言模型。
语言建模技术要解决的问题是,对于一个服从某个未知概率分布P的语言L,如何根据给定的样本集估计P因此通过语言模型可以决定哪一个词序列的可能性更大或是已知若干个词,预测下一个词。语言模型首先在语音识别中提出,后来陆续用到光学字符识别、手写字识别、机器翻译、信息检索等领域。语言模型最常用的是N元模型,如果用变量w代表一个文本中顺序排列的11个词,即W--wlW2?Wn,则统计语言模型的任务是给出任意词序列w在文本中出现的概率P(w)。
2语言模型中的平滑技术。
加1平滑(Additive smoothing); Good.Turing估计;退化法(Backing-offsmoothing model;线性插值法(Linear Interpolated smoothing model)
3基于语言模型的IR模型的概念。
最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域
来改善检索系统的性能。Ponte和CroR在1998年首先提出基于语言模型的信息检索系统,他们根据词汇的分布规律为文档集合中的每篇文档构建一元语言模型,查询条件在概念上被理解为由文档的语言模型通过随机过程生成的语言实例,而文档与查询条件的相关度评价标准就是由文档语言模型生成查询条件概率的大小,生成概率越大也就是说该文档和查询条件越相关。Miller等人将检索过程看作是一个隐马尔可夫随机过程,通过将文档语言模型和一般语言模型平滑处理相结合来计算查询条件和文档的相关度,这个方法在TREC评测中获得很好的性能。语言模型检索方法因为其比较坚实的数学理论基础,,简洁的概念模型和实际评测中相对于传统的向量空间模型能够获得更好的检索效果等优势因素逐渐引起相关研究人员的注意。
5.1结论
本文对中文问答系统做出较为全面具体的总结与回顾,特别是在问答系统的关键模块之一信息检索模块中提出了自己的一些想法。
张晓腾
二0一二年十月
参考文献
【1】全球互联网状况统计.http://www.clickz.com/stats
【2】英国莫里(MORD调查公司.htip://www.mori.corn/
【3】D.Moldovan et a1.The structure end performance of an open domain question answeringsystem,in Proceedings ACL 2000,PP.563-570 2000
【4】郭以昆.信息检索和自然语言处理中的几个关键问题的研究.复旦大学博士学位论文,
篇二:计算机检索论文01
计算机检索技术论文
专业:
班级:
姓名:
学号:
全文检索技术研究与应用论文
摘要
全文检索是现代信息检索技术的一个非常重要的分支, 它是处理非结 构化数据的强大工具,也是搜索引擎的核心技术之一。本文对中文全文检 索的有关技术进行了较为深入的研究。在基于字表的全文索引方面,本文 提出了一种改进的倒排索引结构,同传统索引结构相比,更便于索引的构 建、维护、更新。本文的重点放在了全文检索技术的应用上,对如何利用 新技术、 改善检索系统的结构、 提高检索系统的性能和效率、 加快检速度、 不断适应网络信息发展等方面做了重点研究。 全文检索是一种 IO 密集型的应用,以往的全文检索系统的开发多在 关系数据库的基础上进行。本文针对全文数据库的特点,深入讨论此法弊 端与不足,并提出了在文件系统上构建的解决方案。由于目前全文检索系 统的开发平台并不多见,本文介绍了一种全文检索引擎工具包一 Lucerne, 它功能强大, 小巧精悍, 便于嵌入各种应用。 近年在世界各地被广泛使用, 诸如 IBM 等公司都使用其核心代码。作为一个开源软件,它为我们学习搜 索引擎的核心技术提供了绝佳的机会,对其剖析研究、进行二次开发,是 一件很有意义的事情。 在应用方面,本文主要工作是本校学位论文全文数据库的设计与实现。
关键字:全文检索, 倒排文件, Lucerne, 全文数据库, 自动分词
Full-text retrieval is an important information retrieval technology. It is a powerful tool for dealing with nonstructural data, and is one of the key technologies of the search engine. This paper deeply research on Chinese full-text retrieval technology. In the filed of full-text index based on word inverted table, an improved word-based Chinese inverted index structure is proposed which has a better performance than traditional approaches, and convenient for constructing, maintaining and updating index. According. To its characteristic, we design its corresponding optimized search method. Analysis shows that better dynamic performance and high indexing speed is possible using this structure. This paper pays more attention in application of full-text retrieval technologies. How to use ne(来自: 写 论 文 网:计算机检索论文)w technique, optimize the structure of retrieval system, improve performance and efficiency, quicken search speed and adapt the development of current web is also discussed in this paper. Full-text retrieval is an I/O intensive application. Its previous developments are carried on the basis of relation database. This paper deeply discusses the abuse and deficiency of this mode according to its characteristic. Because the development platform of full-text retrieval is absent currently, Lucerne, a full-text search engine toolkit, is introduced into the paper. It has powerful performed acne. And its body is cabinet, capable and vigorous. This Convenient for it embedded applications. At present, Lucerne is employed world abroad, so that many professional companies such as IBM also use its core code. As an open source code soft, Lucerne offer a superexcellent chance to study search engine key technology. It is wrathful to take a parse. Research and carry second development to it. In the application aspect, this paper works mostly in the design and implement of the degree dissertation full-text database in university. KEY WORDS: Full-text,Inverted File, Lucerne,Full-text Database Divided Syncopation 一、全文检索技术简介
1.什么是全文检索
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个 词建立一个索
引,指明该词在文章中出现的次数和位置,当用户查询时, 检索程序就根据事先建立的索引进行查找, 并将查找的结果反馈给用户的 检索方式。这个过程类似于通过字典中的检索字表查字的过程。 总之,全文检索技术是现代信息检索的一项重要技术。
2.全文检索需要解决的问题
一套完整的全文检索一般包括: 1 对不同文本的统一处理; 2 索引的建立,考虑索引压缩率,是否支持动态索引更新等问题; 3 对汉语词语进行正确的切分; 4 检索问题,考虑检索效率,查全率,查准率等问题; 5 排序问题。 本文就围绕以上 5 个问题进行分析与研究。
二、建立索引库
1.索引文件分类
(1)顺排档结构
顺排档文档是以 Decide 为主序的, 每一文档下存放各自出现的词的 ID 及各词所出现的次数和具体位置信息,各数据项的存储长度固定。
(2)倒排档结构
1) 、一级索引:一级索引文件属于记录式文件,每一记录大小固定, 共有三个数据项构成, Word ID、 文档数、 第一个文档开始位置。 其中 Word ID 是词典中词条的 ID,文档数是指这个词总共在多少个文档中出现,文档 开始位置是一个文件指针指向二级索引中出现当前词的文档集中的第一 个文档存储位置, 这个指针是一个长整形值相当于指明 了是二级索引文件 中的第几条记录,因为各记录长度也是固定大小。通过这个指向可以直接 定位到二级索引文件读取位置,然后读取 n Docs 个记录即可,因为它们是 存放在连续的地址空间上。
2) 、二级索引:二级索引也是一种记录式文件,每一记录有三个数据 项组成,Doc ID、出现次数、第一个 Hit 位置。其中 Doc ID 是文档的 ID, 出现次数指的是当前文档中某一个词出现的次数, 第一个 Hit 位置也是一 个指针,指向 Hits 文件中的某一位置。通过这个指针就可以直接定位到 Hits 位置中的读取位置,这样连续读取 n Hits 个记录就可以将所有当前 词在当前文档中的出现的位置信息都读入。这些文件将属于同一 Word ID下的所有文档记录按其词在整个文档的权值从大到小排列。
3) 、Hits 位置信息文件:这些文件每一记录只有一个数据项,即 Hit 位置信息,只记录了各词在文档中出现的位置。将同一词在同一文档中的 出现位置按出现的先后排列。 这样在读取文档并提取摘要时只需对字符串 从头到尾扫描一边即可,不需要来回扫描。
2.倒排索引压缩
(1)动态文本集的倒排索引压缩方案
我们考虑文本集动态性时, 将文本内部的动态调整用两次文本层次的 调整代替,即对一个文本作文字改动视为删除旧文本和增加新文本,因此 一般只考虑文本层次的索引动态同步调整。 上文 3.1 节提到一个倒排列表 可拆分成三部分序列,事实上这三部分的动态特性并不相同,根据这一特 点,我们可以采用混合编码的方案,对三部分序列实施不同的压缩方法, 力求在满足动态性的前提下,尽可能地实现高压缩率。 位置序列
本文关键词:计算机检索,由笔耕文化传播整理发布。
本文编号:138569
本文链接:https://www.wllwen.com/wenshubaike/xxkj/138569.html