Python知识自动问答系统的研究与实现
发布时间:2024-04-26 23:55
自动问答系统(Question Answering System,QAS)作为新一代的信息检索系统,是自然语言处理与人工智能相结合的产物,它允许用户使用自然语言问句提问,并将准确、简洁的检索答案返还给用户。将自动问答系统与教育领域的深度融合,是“互联网+教育”领域炙手可热的研究方向之一。论文选择“Python程序知识”为特定领域,以自动问答系统的问句预处理、信息检索、答案抽取三个核心部分为研究切入点,并通过网络爬虫技术与人工整理相结合构建了领域知识库,设计并实现了一套能自动回答“Python程序知识”的教育领域问答系统。本文的主要工作内容如下:(1)分析领域数据组成,实现面向多数据源构建领域知识库。根据程序设计语言领域数据特点,采用网络爬虫技术分别从百度百科与百度知道抓取领域数据,并结合各大高校领域知识信息文本人工组建Python程序设计领域常见问题知识库(FAQ)。(2)研究基于Word2Vec的关键技术。首先针对传统TextRank算法提取文本特征词忽略词汇之间连接关系的问题,采用一种使用Word2Vec将知识库中问题语料文本训练成候选特征词词向量集,并根据候选特征词汇节点之间相似...
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
本文编号:3965052
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
图2-5句法分析结构图和语义依存树结构图
图2-5句法分析结构图和语义依存树结构图ig.2-5Thediagramofsyntacticanalysisstructureandsemanticdependencytreestruc使用语句依存关系进行相似度计算的过程中,语句元素之间的有效配对
图3-1词条标题与简介图
图3-1词条标题与简介图Fig.3-1Thediagramofentrytitleandintroduction(2)分析网页源码。解析百度百科词条网页源码dom树,并得到相关签,并依据广度优先爬取策略规则,确定网页中相关领域知识URL列
图3-2词条标题与简介源码图
24图3-2词条标题与简介源码图Fig.3-2ThediagramofEntrytitleandintroductionsourcecode
图3-3领域词条源码图
图3-3领域词条源码图Fig.3-3Thediagramofdomainentrysourcemap综上所述,爬取百科领域数据过程中使用的标签如表3-1所示。表3-1所需数据定位标签
本文编号:3965052
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3965052.html