基于网络信息的限定域问答系统研究
发布时间:2021-03-28 23:59
自进入互联网时代以来网络上各类信息的爆炸性增长,在获取准确信息时人们总要花费不少精力。为了解决这个问题,搜索引擎出现了,搜索引擎有助于这个问题的解决,但是其也具有很多的局限性,其中最重要的一点就是其只能按照关联程度返回一系列的网页,而不是一句准确的回答,人们依旧需要花大量时间去寻找所需的答案。所以人们还是需要一种能更为简单快捷地获取信息的方式,此时问答系统便应运而生成为一大研究热门。其中限定域问答系统又因其可行性高和用途广泛而备受关注。而海量的网络信息也为问答系统提供了海量的信息来源。故本文致力于基于网络信息的限定域问答系统的研究。其中主要分为以下三个部分。基于网络信息的知识库自动构建。过往知识库的构建往往需要大量的人工,费事费力。为解决该问题本文建立了基于网络信息的知识库自动构建框架,即基于领域词条集收集百科和在线问答社区的问答对。领域词条集则通过爬取领域网站语料并抽取其中的领域词条构建而成。此处,本文提出了改进的基于TextRank和Word2Vec的领域词条提取方法,并取得了不错的效果。基于网络信息的检索式问答系统构建。由于传统问答系统知识库内容的局限性,很多问句检索时会找不到匹...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
领域知识库构建流程图
图 2-2CBOW 与 Skip-Gram 两种模型框架示意图基于 Word2Vec 抽取领域术语,首先要将语料进行分词等预处理,然后训练得到每个词的词向量,然后要提供一个领域词条集,也可以叫做种子领域词条集,这个词集中有语料中包含的与领域相关度极高的词,通过种子领域词条集就可以以这个种子领域词条集做一个词聚类,即计算语料中各个词与种子领域词条的相似度,相似度大的词便可选作是领域词条,这个词语的相似度可以用训练出来的词向量的相似度来表示。由此可见,种子领域词条集作为聚类的中心,其的选取对最后提取的领域词条的质量影响甚大。基于此问题的存在,本文提出了改进的基于 Word2Vec 的领域词条提取的方法,具体是由传统的领域词条抽取方法抽取的领域词条集中选取十个最佳领域词条作为种子领域词条集,因为传统的方法都对领域语料库进行了整体的统计分析,所得的领域词条在一定程度上是比较能代表整个领域语料的。本文在进行了大量相关试验后,发现使用 TextRank 抽取的领域词条集的前十个最佳领域词条作为种子领域词条集时效果较好。故在改进的方法中选取 TextRank 抽取的领域词条集的前十个最佳领域词条作为种子领域词条集。由于要得到各词之间确切的联系,训练词向量时未完全去除噪声词,故生成的领
以这个种子领域词条集做一个词聚类,即计算语料中各个词与种子领域词条的相似度,相似度大的词便可选作是领域词条,这个词语的相似度可以用训练出来的词向量的相似度来表示。由此可见,种子领域词条集作为聚类的中心,其的选取对最后提取的领域词条的质量影响甚大。基于此问题的存在,本文提出了改进的基于 Word2Vec 的领域词条提取的方法,具体是由传统的领域词条抽取方法抽取的领域词条集中选取十个最佳领域词条作为种子领域词条集,因为传统的方法都对领域语料库进行了整体的统计分析,所得的领域词条在一定程度上是比较能代表整个领域语料的。本文在进行了大量相关试验后,发现使用 TextRank 抽取的领域词条集的前十个最佳领域词条作为种子领域词条集时效果较好。故在改进的方法中选取 TextRank 抽取的领域词条集的前十个最佳领域词条作为种子领域词条集。由于要得到各词之间确切的联系,训练词向量时未完全去除噪声词,故生成的领域词条集还会有大量噪声词。故在领域词条抽取得到候选领域词条集后还要进行去噪,本文在此主要是将非名词的候选领域词条进行了去除,还有是将候选领域词条在百科网站中搜索将没有对应词条的候选领域词条去除。故改进的基于Word2Vec 的领域词条提取的流程大致如下图 2-3 所示:
本文编号:3106491
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
领域知识库构建流程图
图 2-2CBOW 与 Skip-Gram 两种模型框架示意图基于 Word2Vec 抽取领域术语,首先要将语料进行分词等预处理,然后训练得到每个词的词向量,然后要提供一个领域词条集,也可以叫做种子领域词条集,这个词集中有语料中包含的与领域相关度极高的词,通过种子领域词条集就可以以这个种子领域词条集做一个词聚类,即计算语料中各个词与种子领域词条的相似度,相似度大的词便可选作是领域词条,这个词语的相似度可以用训练出来的词向量的相似度来表示。由此可见,种子领域词条集作为聚类的中心,其的选取对最后提取的领域词条的质量影响甚大。基于此问题的存在,本文提出了改进的基于 Word2Vec 的领域词条提取的方法,具体是由传统的领域词条抽取方法抽取的领域词条集中选取十个最佳领域词条作为种子领域词条集,因为传统的方法都对领域语料库进行了整体的统计分析,所得的领域词条在一定程度上是比较能代表整个领域语料的。本文在进行了大量相关试验后,发现使用 TextRank 抽取的领域词条集的前十个最佳领域词条作为种子领域词条集时效果较好。故在改进的方法中选取 TextRank 抽取的领域词条集的前十个最佳领域词条作为种子领域词条集。由于要得到各词之间确切的联系,训练词向量时未完全去除噪声词,故生成的领
以这个种子领域词条集做一个词聚类,即计算语料中各个词与种子领域词条的相似度,相似度大的词便可选作是领域词条,这个词语的相似度可以用训练出来的词向量的相似度来表示。由此可见,种子领域词条集作为聚类的中心,其的选取对最后提取的领域词条的质量影响甚大。基于此问题的存在,本文提出了改进的基于 Word2Vec 的领域词条提取的方法,具体是由传统的领域词条抽取方法抽取的领域词条集中选取十个最佳领域词条作为种子领域词条集,因为传统的方法都对领域语料库进行了整体的统计分析,所得的领域词条在一定程度上是比较能代表整个领域语料的。本文在进行了大量相关试验后,发现使用 TextRank 抽取的领域词条集的前十个最佳领域词条作为种子领域词条集时效果较好。故在改进的方法中选取 TextRank 抽取的领域词条集的前十个最佳领域词条作为种子领域词条集。由于要得到各词之间确切的联系,训练词向量时未完全去除噪声词,故生成的领域词条集还会有大量噪声词。故在领域词条抽取得到候选领域词条集后还要进行去噪,本文在此主要是将非名词的候选领域词条进行了去除,还有是将候选领域词条在百科网站中搜索将没有对应词条的候选领域词条去除。故改进的基于Word2Vec 的领域词条提取的流程大致如下图 2-3 所示:
本文编号:3106491
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3106491.html