当前位置:主页 > 科技论文 > 软件论文 >

基于CNN的轻量级问答系统算法研究

发布时间:2024-03-09 10:12
  问答系统是自然语言处理(Natural Language Processing,NLP)领域重要的一个分支,自“图灵测试”的提出至今,实现问答系统的算法和框架多种多样,大致的实现流程为构建数据集、文本特征提取、问题分类、问句分析、信息检索、语句匹配、抽取或者生成答案。每个步骤都有很多种算法或方法进行实现,如文本体征提取有基于概率统计的、有基于向量空间的、有基于神经网络的等;问句分类有朴素贝叶斯、支持向量机、决策树、KNN等;信息检索有数据库查询语言、MultiText算法、IBM的算法、SiteQ算法、哈希函数等。在具体的实现过程中,根据使用不同的算法和应用场景,有些步骤会被简化或者过滤,本文在标注型数据集的基础上构建出一个基于词向量和CNN轻量级问答系统,主要工作如下:1.选取三种不同的语料库和三种维度(30维,60维,90维)训练出多个词向量模型,经过不同的对比实验,寻找出最适合本文CNN模型的词向量。2.CNN运用于自然语言处理的传统方法是通过CNN对问句和答句分别提取文本特征,然后使用余弦值或者欧氏距离来匹配两句话的语义相似度。为了保留更加完整的原始语义,本文采取问句和答句原始...

【文章页数】:56 页

【学位级别】:硕士

【部分图文】:

图2-2改进的结构化问答系统

图2-2改进的结构化问答系统

于关键词技术数据形式的问答系统对于语句要求具有多种表达方式,为了解决这一问题,基于一个或多个关键词可以代表整个语句的对关键词进行检索,这样可以解决结构技术的方式有两种:第一种是在结构化工标注和抽取,进行信息检索时也会出现行筛选,显然这种方式耗时又费力;第练,训练过程中会过滤掉停用....


图2-3关键词问答系统结构图

图2-3关键词问答系统结构图

图2-3关键词问答系统结构图优点:以关键词来代替整个语句的语义可以加快系统的运行效率也解决了结构化问答的笨重问题;使用以词袋模型为基础的形式可以直接对语句进行关键词抽取,并且解结构化问答系统人工标注的的问题。缺点:词袋模型使基于概率统计的,所有的词汇和语句并没有象现实生活中的....


图2-4语义问答系统结构图

图2-4语义问答系统结构图

图2-4语义问答系统结构图点:语义问答系统在准确率方面比关键词问答系统高很多;关键词问答系统采用存储词汇和语句,语义问答系统采用分布式稠密向量存储词汇或语句,这样可以要的空间浪费也可以提升运算效率;语义问答系统可以兼容关键词问答系统。点:语义问答系统的训练时间会更长;目前语义....


图2-5LSA奇异值分解示意图

图2-5LSA奇异值分解示意图

图2-5LSA奇异值分解示意图是词袋模型的延伸,既可以使用词袋模型直接训练LSA,也上训练LSA。一般来说直接使用TF-IDF模型来训练LSA得到,本文采用2.1小节生成TF-IDF模型进行LSA生成,使用models.LsiModel()函数生....



本文编号:3923268

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3923268.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户45641***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com