MOOC环境下课程智能问答系统的设计与实现

发布时间：2020-08-25 02:58

【摘要】：随着当前社会信息的迅速发展,越来越多的人正在从传统学习模式转向在线学习模式。与此同时新形式的大规模开放式课程慕课(Massive Open Online Course,简称MOOC)快速地发展促进了大量的开放式课程平台的产生。目前国内多数的开放式课程都依托于MOOC平台,该平台中重要的辅助教学模式是自动答疑,目前研究的热点内容——问答系统可以实现课程的自动答疑。虽然现阶段问答系统已逐渐成熟,但基于课程知识的问答系统并不完善,用户的提问不能实时得到答案。为此,本学位论文设计了一个基于课程的智能问答系统并应用于MOOC平台。该系统采用Web与本地问答数据库相结合的方式对问题的答案进行检索、组织和管理。若用户所提出的问题在问答库中有标准答案随即反馈给用户;若用户输入的问题不在本地问答数据库中,则结合Web搜索技术在网上爬取到与问题相关的文本,再利用自动文摘抽取技术得到问题的答案,辅助教师教学,从而能及时帮助学生得到课程相关问题的答案,保证了学习的顺利进行,并且促进教学质量和效果的改善与提高。首先,本学位论文研究在MOOC平台下实现智能问答系统的方法,通过构建本地问答数据库并利用互联网搜索技术,对用户提出的问题分析后返回相关答案,能够弥补目前MOOC环境下需要管理人员在线情况下才能回答学生提问的不足。其次,研究问题分析过程中用户输入问句的文本校对等方法,利用领域词典和N-gram模型对用户的问句进行合理的规范化,有效地检测用户提出的问题是否有字词方面的错误,并给用户一个良好的修改建议。最后,研究FAQ库合理有效的结构以及问答内容智能增长的方法;对FAQ库中未登录问题利用搜索引擎网页检索、网页爬虫技术、摘要处理技术向用户提供推荐答案的同时通过教师审核、认定等过程增加FAQ库中的问答记录。经系统测试后的结果表明,本学位论文设计的问句文本校对功能可以有效地纠正问句中错误的专业词汇,且基于Web的多文档自动生成答案摘要功能也达到了预期的设计目标,问句的文本校对功能纠正率达到了 85.3%;基于Web多文档生成的答案摘要准确率为78.8%;系统的准确率为87.3%,召回率为89.3%,F值为88.3%,测试结果满足用户需求。
【学位授予单位】：延边大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP391.1
【图文】：

结构图,层结构,词语,扩展版

成为各段落，所有的段落中都分布着很多个词，而这些词还可进一步细分形逡逑成诸多行。最后所形成的词语，即都为具有相关性或者相似性的语义。从顶逡逑至底，树形结构完美地诠释了整个词典分类。结构图如图２－２所示。逡逑图２－２《同义词词林》５层结构图逡逑Ｆｉｇ．邋２－２邋Ｆｉｖｅ邋ｌａｙｅｒ邋ｓｔｒｕｃｔｕｒｅ邋ｏｆ邋ｔｈｅ邋Ｔｏｎｇｙｉｃｉ邋Ｃｉｌｉｎ逡逑以树的顶层为起始点逐层划分，越下层的词语也就越详细，最终词类，逡逑即最底层，该层必须至少有一个词语，同时由于最终词类所在的层不可再进逡逑行划分，因而一般称其为节点、原子词群。就问答系统而言，其所需要运用逡逑的词应为第四层、第五层的词，也就是该系统的最后两层［２５］。逡逑扩展版的编码一共可分为５级，其中第１级和第４级用Ａ？Ｚ的英文大写逡逑字母顺序编码；第２级以英文ａ？ｚ的小写字母进行排列、编码；第３级和第逡逑５级都是从０１开始用二位十进制整数表示。例如：“Ａｅｌ６Ｂ０１＝译者翻译译逡逑员通译”，“Ａｅｌ６Ｂ０１邋＝邋”是编码，“译者翻译译员通译”是该类的词语。逡逑表２－１《哈工大同义词词林扩展版〉〉编码规则表逡逑Ｔａｂｌｅ邋２－１邋ＨＩＴ邋Ｔｏｎｇｙｉｃｉ邋Ｃｉｌｉｎ邋（Ｅｘｔｅｎｄｅｄ）邋ｃｏｄｅ邋ｒｕｌｅｓ逡逑编码位逦符号举例逦符

流程图,网页,文档,流程图

提出的网页正文内容提取方法快速下载搜索引擎检索到的前５个页面，在此逡逑基础上可结合搜索引擎排序实现存储，该存储的信息是后一个模块也就是答逡逑案提取模块的依据。如图３－５所示，即为该流程工作示意图。逡逑问灥索逦ｖｊ逡逑丨逦＞邋搜索引擎逦Ｉ第１个网页爬取｜逡逑解析搜索页面｜，￣＼邋ｆ邋ｎ个页面Ａ邋！逦！逦ｆ相关文档逡逑提取ＵＲＬ逦１￣（邋ＵＲＬ逦｜第ｉ个网页爬取１邋ｋ集合Ｕ逡逑％！…一．逡逑图３－５爬取网页获取多个文档流程图逡逑Ｆｉｇ．邋３－５邋Ｆｌｏｗ邋ｃｈａｒｔ邋ｏｆ邋ｃｒａｗｌｉｎｇ邋ｗｅｂ邋ｐａｇｅｓ邋ｔｏ邋ｇｅｔ邋ｍｕｌｔｉｐｌｅ邋ｄｏｃｕｍｅｎｔｓ逡逑对于爬取到的多个文档采用ＴｅｘｔＲａｎｋ算法进行答案摘要的生成。逡逑ＴｅｘｔＲａｎｋ算法的思想是拟定一个通用的评分标准，给文本中的每一个句子打逡逑分，所得分数就是该句子的权重，最后得到权重排名靠前的几个句子，构成逡逑最终的文本摘要。ＴｅｘｔＲａｎｋ的文本中包含ＰａｇｅＲａｎｋ算法思想，其图结构的逡逑文字单元为特定的粒度及其共现关系，同时基于图的迭代计算出重要性排序逡逑［４０］。如果基本粒度为词语，即可用于抽取关键词；同样的如果基本粒度为句逡逑子，则适用于文本摘要。相较于ＴＦ－ＩＤＦ其总体应用效果较佳，且实现简单逡逑所以应用较为广泛。逡逑具体处理文档

图结构,节点集

逡逑图３－６中，节点集Ｋ代表的是文档中句子的集合，代表文档中的每一逡逑个句子，边集五是由句子的邻接关系而构成的形成候选关键句子图勾。逡逑对于给定的以上图Ｇ，邋ＴｅｘｔＲａｎｋ算法的具体公式如下：逡逑ｊｙ逡逑ＷＳ＾Ｖ＾＾－ｄ＾ｄｘ邋Ｘ邋Ｗ邋吨）逦（３－５）逡逑Ｋ＊ｅＯｗ（匕．）逡逑其中，抓（Ｋ）称为Ｐｉ？值，它是节点Ｆ／的权重值，阻尼系数用ｄ表示，逡逑其值一般设置为0．邋８５［４｜］。指向Ｋ的所有节点集合用／？（0代表，而Ｆ／所指逡逑向的所有节点集合用０ｗｚ（７，邋）表示。公式（３－５）的右侧求和代表本节点的各逡逑个相邻节点的贡献度，公式的左边可用于说明节点Ｋ，？的权重。两个节点逡逑和＆间的相似程度用％７表示，分母通常为加权和，上一次迭代后节点＾的逡逑权重值用呢（匕）代表。逡逑图３－６Ｔｅｘｔｒａｎｋ算法的图结构逡逑Ｆｉｇ．邋３－６邋Ｇｒａｐｈ邋ｓｔｒｕｃｔｕｒｅ邋ｏｆ邋ｔｅｘｔｒａｎｋ邋ａｌｇｏｒｉｔｈｍ逡逑由于％需要计算两个句子的相似程度

【参考文献】