信息距离理论及其在问答系统中的应用研究
发布时间:2020-03-18 21:45
【摘要】: 计算词与词、句与句等文本片段之间的相似度或相关性是自然语言问答系统的核心任务之一。不仅如此,相似度或相关性计算在信息提取、信息检索等很多领域也具有重要的意义。从根本上说,相似度或相似性计算都可以抽象成度量两个实体在某种意义下的距离。本文就集中于建立和完善能够计算对象间距离的统一理论——信息距离理论,并对各种情况下使用信息距离度量文本片段之间的相似度或相关性做出了深入探索,最后在此基础上设计和实现了自然语言问答原型系统QUANTA。本文的主要工作如下: ·以传统的max型信息距离理论为基础,提出了基于Kolmogorov复杂性的min型信息距离度量。新的度量解决了传统信息距离在解决实际问题时遇到的部分匹配问题,三角不等式问题和密度问题。在正规化信息距离的普适性方面,我们证明了一系列定理,为传统理论中的遗留问题做出了确定性结论。最后,我们发展了基于条件模式的条件信息距离理论。 ·在信息距离理论的指导下,对词与词之间、句与句之间的相似性进行了深入研究。基于模式的条件信息距离相比传统信息距离可以提供更强的语义信息,据此我们设计了一套条件模式计算词之间的语义相似度。基于最大交迭原则和min型信息距离的原理,我们提出了估计条件Kolmogorov复杂性的算法,以计算句子与句子之间的相似性。 ·答案确认是问答系统中的关键环节之一。本文提出了基于条件信息距离的答案确认算法,利用条件信息距离的稳定性以及刻画对象之间相关度时的灵活性,将计算问题与答案相关性的问题转化成为计算问题的中心对象与答案之间关于特定条件模式的条件信息距离的问题。 ·采用自然语言处理、文本分类和信息检索领域的一系列技术,以信息距离理论为基础,设计并实现了事实型问题回答原型系统QUANTA。系统通过问题预处理、检索条目生成、文档/段落检索、备选答案生成和答案确认等五个模块回答自然语言提出的事实型问题。
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP3;TP18
本文编号:2589231
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP3;TP18
【引证文献】
相关硕士学位论文 前3条
1 彭先霖;基于语义网络和交互式过滤的动物图像教育资源检索方法[D];西北大学;2013年
2 耿端;基于同义词词林的评分在中医案例自测系统中的应用[D];西北大学;2013年
3 陶小雷;基于Kolmogorov复杂性的聚类方法研究[D];南京航空航天大学;2013年
,本文编号:2589231
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2589231.html