基于Internet的问答系统答案抽取方法研究与实现
发布时间:2017-09-20 22:37
本文关键词:基于Internet的问答系统答案抽取方法研究与实现
更多相关文章: 问答系统 网页信息抽取 答案抽取 中文问句相似度
【摘要】:随着Internet的快速发展,互联网上的知识资源也在不断的膨胀。然而,网页如此繁杂以至于人们无法快速获取自己想要的信息。搜索引擎的出现,虽然在很大程度上缓解了这个问题,但是效果却不能令人满意。人们对于快速获取信息的强烈需求,使得越来越多的人投入到自动问答系统的研究中。自动问答系统企图不借助任何人力,利用自然语言理解、信息检索、信息抽取等技术,以自动化的方式回答用户的问题。考虑到当今问答系统在网络上的新发展,同时也考虑到构建一个开放领域问答系统的复杂性与系统性,本文将主要研究网页信息抽取、中文问句相似度等。本文试图通过这些方面的研究,为受限领域问答系统做支持,从而实现从网络抽取答案的目标。本研究基于通常的网页抽取方法基础上,提出了一种基于“DOM模板与页面特征信息综合抽取”的方法,具体是从百度知道等网站抽取出用户提问的候选问题及其对应答案集,这相当于将FAQ库从本地扩展到了Internet,增加了知识的广度与范围,使受限领域问答系统不再局限于特定领域知识的问答。然后,利用中文问句相似度计算等思想找到最相似的问句对应的答案返回给用户,从而实现受限领域的自动回答。本文从基于Internet的问答系统研究的相关背景入手,首先阐述了研究的基础平台,接着详细的分析了网页信息抽取与中文文件相似度的计算,最后重点的对答案抽取系统做了相关实现。
【关键词】:问答系统 网页信息抽取 答案抽取 中文问句相似度
【学位授予单位】:浙江工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
,
本文编号:890837
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/890837.html