MOOC环境下课程智能问答系统的设计与实现
发布时间:2020-08-25 02:58
【摘要】:随着当前社会信息的迅速发展,越来越多的人正在从传统学习模式转向在线学习模式。与此同时新形式的大规模开放式课程慕课(Massive Open Online Course,简称MOOC)快速地发展促进了大量的开放式课程平台的产生。目前国内多数的开放式课程都依托于MOOC平台,该平台中重要的辅助教学模式是自动答疑,目前研究的热点内容——问答系统可以实现课程的自动答疑。虽然现阶段问答系统已逐渐成熟,但基于课程知识的问答系统并不完善,用户的提问不能实时得到答案。为此,本学位论文设计了一个基于课程的智能问答系统并应用于MOOC平台。该系统采用Web与本地问答数据库相结合的方式对问题的答案进行检索、组织和管理。若用户所提出的问题在问答库中有标准答案随即反馈给用户;若用户输入的问题不在本地问答数据库中,则结合Web搜索技术在网上爬取到与问题相关的文本,再利用自动文摘抽取技术得到问题的答案,辅助教师教学,从而能及时帮助学生得到课程相关问题的答案,保证了学习的顺利进行,并且促进教学质量和效果的改善与提高。首先,本学位论文研究在MOOC平台下实现智能问答系统的方法,通过构建本地问答数据库并利用互联网搜索技术,对用户提出的问题分析后返回相关答案,能够弥补目前MOOC环境下需要管理人员在线情况下才能回答学生提问的不足。其次,研究问题分析过程中用户输入问句的文本校对等方法,利用领域词典和N-gram模型对用户的问句进行合理的规范化,有效地检测用户提出的问题是否有字词方面的错误,并给用户一个良好的修改建议。最后,研究FAQ库合理有效的结构以及问答内容智能增长的方法;对FAQ库中未登录问题利用搜索引擎网页检索、网页爬虫技术、摘要处理技术向用户提供推荐答案的同时通过教师审核、认定等过程增加FAQ库中的问答记录。经系统测试后的结果表明,本学位论文设计的问句文本校对功能可以有效地纠正问句中错误的专业词汇,且基于Web的多文档自动生成答案摘要功能也达到了预期的设计目标,问句的文本校对功能纠正率达到了 85.3%;基于Web多文档生成的答案摘要准确率为78.8%;系统的准确率为87.3%,召回率为89.3%,F值为88.3%,测试结果满足用户需求。
【学位授予单位】:延边大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1
【图文】:
成为各段落,所有的段落中都分布着很多个词,而这些词还可进一步细分形逡逑成诸多行。最后所形成的词语,即都为具有相关性或者相似性的语义。从顶逡逑至底,树形结构完美地诠释了整个词典分类。结构图如图2-2所示。逡逑图2-2《同义词词林》5层结构图逡逑Fig.邋2-2邋Five邋layer邋structure邋of邋the邋Tongyici邋Cilin逡逑以树的顶层为起始点逐层划分,越下层的词语也就越详细,最终词类,逡逑即最底层,该层必须至少有一个词语,同时由于最终词类所在的层不可再进逡逑行划分,因而一般称其为节点、原子词群。就问答系统而言,其所需要运用逡逑的词应为第四层、第五层的词,也就是该系统的最后两层[25]。逡逑扩展版的编码一共可分为5级,其中第1级和第4级用A?Z的英文大写逡逑字母顺序编码;第2级以英文a?z的小写字母进行排列、编码;第3级和第逡逑5级都是从01开始用二位十进制整数表示。例如:“Ael6B01=译者翻译译逡逑员通译”,“Ael6B01邋=邋”是编码,“译者翻译译员通译”是该类的词语。逡逑表2-1《哈工大同义词词林扩展版〉〉编码规则表逡逑Table邋2-1邋HIT邋Tongyici邋Cilin邋(Extended)邋code邋rules逡逑编码位逦符号举例逦符
提出的网页正文内容提取方法快速下载搜索引擎检索到的前5个页面,在此逡逑基础上可结合搜索引擎排序实现存储,该存储的信息是后一个模块也就是答逡逑案提取模块的依据。如图3-5所示,即为该流程工作示意图。逡逑问灥索逦vj逡逑丨逦>邋搜索引擎逦I第1个网页爬取|逡逑解析搜索页面|, ̄\邋f邋n个页面A邋!逦!逦f相关文档逡逑提取URL逦1 ̄(邋URL逦|第i个网页爬取1邋k集合U逡逑%!…一.逡逑图3-5爬取网页获取多个文档流程图逡逑Fig.邋3-5邋Flow邋chart邋of邋crawling邋web邋pages邋to邋get邋multiple邋documents逡逑对于爬取到的多个文档采用TextRank算法进行答案摘要的生成。逡逑TextRank算法的思想是拟定一个通用的评分标准,给文本中的每一个句子打逡逑分,所得分数就是该句子的权重,最后得到权重排名靠前的几个句子,构成逡逑最终的文本摘要。TextRank的文本中包含PageRank算法思想,其图结构的逡逑文字单元为特定的粒度及其共现关系,同时基于图的迭代计算出重要性排序逡逑[40]。如果基本粒度为词语,即可用于抽取关键词;同样的如果基本粒度为句逡逑子,则适用于文本摘要。相较于TF-IDF其总体应用效果较佳,且实现简单逡逑所以应用较为广泛。逡逑具体处理文档
逡逑图3-6中,节点集K代表的是文档中句子的集合,代表文档中的每一逡逑个句子,边集五是由句子的邻接关系而构成的形成候选关键句子图勾。逡逑对于给定的以上图G,邋TextRank算法的具体公式如下:逡逑jy逡逑WS^V^^-d^dx邋X邋W邋吨)逦(3-5)逡逑K*eOw(匕.)逡逑其中,抓(K)称为Pi?值,它是节点F/的权重值,阻尼系数用d表示,逡逑其值一般设置为0.邋85[4|]。指向K的所有节点集合用/?(0代表,而F/所指逡逑向的所有节点集合用0wz(7,邋)表示。公式(3-5)的右侧求和代表本节点的各逡逑个相邻节点的贡献度,公式的左边可用于说明节点K,?的权重。两个节点逡逑和&间的相似程度用%7表示,分母通常为加权和,上一次迭代后节点^的逡逑权重值用呢(匕)代表。逡逑图3-6Textrank算法的图结构逡逑Fig.邋3-6邋Graph邋structure邋of邋textrank邋algorithm逡逑由于%需要计算两个句子的相似程度
本文编号:2803171
【学位授予单位】:延边大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1
【图文】:
成为各段落,所有的段落中都分布着很多个词,而这些词还可进一步细分形逡逑成诸多行。最后所形成的词语,即都为具有相关性或者相似性的语义。从顶逡逑至底,树形结构完美地诠释了整个词典分类。结构图如图2-2所示。逡逑图2-2《同义词词林》5层结构图逡逑Fig.邋2-2邋Five邋layer邋structure邋of邋the邋Tongyici邋Cilin逡逑以树的顶层为起始点逐层划分,越下层的词语也就越详细,最终词类,逡逑即最底层,该层必须至少有一个词语,同时由于最终词类所在的层不可再进逡逑行划分,因而一般称其为节点、原子词群。就问答系统而言,其所需要运用逡逑的词应为第四层、第五层的词,也就是该系统的最后两层[25]。逡逑扩展版的编码一共可分为5级,其中第1级和第4级用A?Z的英文大写逡逑字母顺序编码;第2级以英文a?z的小写字母进行排列、编码;第3级和第逡逑5级都是从01开始用二位十进制整数表示。例如:“Ael6B01=译者翻译译逡逑员通译”,“Ael6B01邋=邋”是编码,“译者翻译译员通译”是该类的词语。逡逑表2-1《哈工大同义词词林扩展版〉〉编码规则表逡逑Table邋2-1邋HIT邋Tongyici邋Cilin邋(Extended)邋code邋rules逡逑编码位逦符号举例逦符
提出的网页正文内容提取方法快速下载搜索引擎检索到的前5个页面,在此逡逑基础上可结合搜索引擎排序实现存储,该存储的信息是后一个模块也就是答逡逑案提取模块的依据。如图3-5所示,即为该流程工作示意图。逡逑问灥索逦vj逡逑丨逦>邋搜索引擎逦I第1个网页爬取|逡逑解析搜索页面|, ̄\邋f邋n个页面A邋!逦!逦f相关文档逡逑提取URL逦1 ̄(邋URL逦|第i个网页爬取1邋k集合U逡逑%!…一.逡逑图3-5爬取网页获取多个文档流程图逡逑Fig.邋3-5邋Flow邋chart邋of邋crawling邋web邋pages邋to邋get邋multiple邋documents逡逑对于爬取到的多个文档采用TextRank算法进行答案摘要的生成。逡逑TextRank算法的思想是拟定一个通用的评分标准,给文本中的每一个句子打逡逑分,所得分数就是该句子的权重,最后得到权重排名靠前的几个句子,构成逡逑最终的文本摘要。TextRank的文本中包含PageRank算法思想,其图结构的逡逑文字单元为特定的粒度及其共现关系,同时基于图的迭代计算出重要性排序逡逑[40]。如果基本粒度为词语,即可用于抽取关键词;同样的如果基本粒度为句逡逑子,则适用于文本摘要。相较于TF-IDF其总体应用效果较佳,且实现简单逡逑所以应用较为广泛。逡逑具体处理文档
逡逑图3-6中,节点集K代表的是文档中句子的集合,代表文档中的每一逡逑个句子,边集五是由句子的邻接关系而构成的形成候选关键句子图勾。逡逑对于给定的以上图G,邋TextRank算法的具体公式如下:逡逑jy逡逑WS^V^^-d^dx邋X邋W邋吨)逦(3-5)逡逑K*eOw(匕.)逡逑其中,抓(K)称为Pi?值,它是节点F/的权重值,阻尼系数用d表示,逡逑其值一般设置为0.邋85[4|]。指向K的所有节点集合用/?(0代表,而F/所指逡逑向的所有节点集合用0wz(7,邋)表示。公式(3-5)的右侧求和代表本节点的各逡逑个相邻节点的贡献度,公式的左边可用于说明节点K,?的权重。两个节点逡逑和&间的相似程度用%7表示,分母通常为加权和,上一次迭代后节点^的逡逑权重值用呢(匕)代表。逡逑图3-6Textrank算法的图结构逡逑Fig.邋3-6邋Graph邋structure邋of邋textrank邋algorithm逡逑由于%需要计算两个句子的相似程度
【参考文献】
相关期刊论文 前3条
1 刘亮亮;王石;王东升;汪平仄;曹存根;;领域问答系统中的文本错误自动发现方法[J];中文信息学报;2013年03期
2 郑文曦;包西林;郭辰;姚倩;吴敏;;自动拼写校对的算法设计和系统实现[J];科技和产业;2013年02期
3 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
相关硕士学位论文 前10条
1 赵洁;基于搜索引擎的中文自动问答系统的设计与实现[D];北京工业大学;2016年
2 陈新光;基于社区问答技术的课程知识问答系统的研究与实现[D];重庆大学;2016年
3 张占江;基于短语主题模型和多文档自动摘要技术的文献综述内容推荐[D];浙江大学;2016年
4 李家南;IT领域问答系统的研究与实现[D];华南理工大学;2016年
5 石敏;中文文本自动校对系统[D];江苏科技大学;2015年
6 吴博;MOOC课程推荐系统的设计与实现[D];西安电子科技大学;2014年
7 刘增健;基于网络搜索的问答系统[D];哈尔滨工业大学;2013年
8 强继朋;FAQ问答系统中的问句相似度研究[D];合肥工业大学;2013年
9 孔令鹏;中文词法错误自动检测关键技术研究[D];国防科学技术大学;2012年
10 吴全娥;汉语句子相似度计算及其在自动问答系统中的应用[D];西南大学;2011年
本文编号:2803171
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2803171.html