当前位置:主页 > 论文百科 > 研究生论文 >

基于多源知识的地理选择题答题方法研究

发布时间:2016-05-20 05:33

第1章 绪 论

相较于其他语言而言,基于中文自然语言的问答系统在研究和发展水平上处于相对落后的状态。其主要难点在中文在自然语言处理方面的特殊性使得基于其他语言的相关方法无法直接应用于中文处理的过程中。此外,中文知识、数据库等相关资源相较于英语这类世界通用语种的匮乏,相关评测及会议的数目较少,投入资源的不足,也是中文问答系统发展缓慢的主要原因[18]。即便如此,国内依然有包括中国科学院计算研究所、哈尔滨工业大学、香港科技大学在内的一批科研机构及新兴互联网企业在进行着中文问答系统的相关研究。在技术方面,哈尔滨工业大学智能计算实验室提出的基于情感及段落划分的答案识别方法[19],以及面向真实环境问句分析方法[20]等均对中文问答系统技术进行了深入、有效的探索。在产品方面,中国科学院计算技术研究所研发的 HKI 知识问答系统,哈尔滨工业大学智能计算实验室研发的金融机器人比特等,微软中国研究院研发的机问答机器人小冰,均对问答系统的实用化进行了有益的实践。
.....


第2章 地理多源知识库的构建


2.1 引言

本课题的研究目标是让计算机求解中文环境下的中学地理试题。因此,尽可能地搜集地理试题资源,是课题研究的第一步。本课题搜集并人工标注了主要包括全国各地 10 年来的 124 套高考地理试题,同时搜集的还有来源于学科网、天星教育等网络资源站的 6511 套地理模拟试题。同时,一个强大的地理知识库,是一个地理试题作答系统的必要支撑,本课题对目前网络上主流、可见的及实际教学中使用的地理知识资源进行了收集整理。本章还将对搜集资料过程中搭建的标注网站进行简要的介绍。

基于多源知识的地理选择题答题方法研究


2.2 地理试题分析

高考试题考察的是答题者的学习目标的完成情况,以地理为例,根据我国地理新课标的规定,高中地理学习目标的衡量维度被分为知识与技能、过程与方法、情感态度与价值观三类。当代教育学家大卫•奥苏泊尔(David P Ausubel)提出,学习按学习的内容这一维度,可被分为机械学习和有意义学习两类。其中,机械学习指的是不加理解、反复背诵的学习内容,即对学习材料的机械记忆。而有意义学习,指的是学习者学习中使学习到的符号所代表的新知识与认知结构中已有的适当概念建立非人为的和实质性的联系[30]。在学习的结果方面,教育学家加涅(RobertMGagne)指出,学生的学习结果分为智慧技能、认知策略、言语信息、动作技能、态度五个方面,其中,言语信息是指的是学习者根据学习材料的陈述进行陈述或基本判定,认知策略指的是学习者在学习后能控制自己的认知行为,智慧技能指的是知识的一系列判别、运用能力的组合[31]。在现代教育心理学中,则把知识分类为陈述性知识、程序性知识以及策略性知识三类[32],其对应的高考考察点,分别是知识、技能、过程及方法,同时,这也是构建答题系统的解答策略时的出发点。

第 3 章 基于多源知识的实体关系构建.......16

3.1 引言............16
3.2 实体知识的抽取 ............16
3.3 实体关系的计算 .......18 
3.4 本章小结 ..............23
第 4 章 基于实体知识网络的地理试题作答............24 
4.1 引言 ...............24
4.2 基于实体知识网络的检索作答.....24 
4.3 基于机器学习的地理试题作答.............30 
4.4 本章小结 ..................36
第 5 章 系统搭建及实验分析..........................37
5.1 引言 .................37
5.2 在线问答系统的构建 ..............37 
5.3 实验结果与分析 .................40 
5.4 本章小结..................43
结 论..................44

第5章 系统搭建及实验分析


5.1 引言

在本章中,首先将介绍地理在线答题系统的系统框架及作答过程。此外,本章将就基于实体知识网络的作答方法和其他不同解题方法在课题标注的 122 道高考地理选择题中进行答题效果的测试,同时分析测试结果数据的优劣与原因。

5.2 在线问答系统的构建

后台系统负责接收中间件传入的问题文本、解析问题文本、解答问题并将系统对问题的回答传回中间件,根据负责的功能不同,后台系统被分为了题目分析扩展模块、检索引擎、特征计算与评分模块、答案排序模块四大模块。其中,题目分析与扩展模块首先对传入的封装文本进行解压还原,之后使用 jieba 分词系统和停用词表对题目文本进行分词、词性标注及去停用词处理。在得到分词结果后,按照候选选项与题干的组合,使用上文中提出的实体扩展方法分别为每个候选项构造检索句列表。系统将得到的检索句列表输入检索系统中。在本课题中,重写了Lucene引擎中的文档排序模块,并且基于Lucene搭建了地理知识的检索引擎,使其检索的文档列表结果更符合地理作答的需求。在得到检索模块给出的知识文档后,特征计算与评分模块根据检索句与知识文档同及实体知识网络中的实体信息,使用第四章中的置信度计算方法对候选项的文档相关性、句子相似性等特征进行进一步计算,得到每个答案对应的各个特征的分值,并将该该分评分列表送入答案排序模块。最后,答案排序模块中对各特征评分进行加权,选出最终得分最高的选项作为答案,将答案进行 json 封装后,通过套接字接口返回给中间件,再由中间件将答案传给前台的等待线程。

.....


结 论


在地理选择题的作答过程中,如何在字面信息之外,获取更多与之相关的信息,是地理选择题作答过程中,亦是本文研究过程中的重点和难点。本文通过对地理知识文档的分析,抽取了其中地理相关的实体列表,,并对其进行了去重及实体属性信息的填充。之后,本文基于百科文档中地理实体的共现特征,提出了基于文档的实体转移距离和实体间距的自动计算方法。在完成实体对间距的计算后,本文利用改进后的 Floyd 算法,对实体关系和距离进行了拓展和更新,得到了一个包含实体间距离信息关系的实体关系网络。基于实体关系网络,本文提出了对应的问题实体扩展方法,同时,针对高考地理选择题的题目特征,本文提出了基于文档相关度和句子相关度的候选项置信度计算公式对候选项的置信度进行评估。在之后的对比实验中,实验结果表明,实体关系网络和本文所提出的置信度计算方法的使用,使系统的答题效果得到了显著的提高(31.1%至 40.2%)。此外,本文利用检索过程中得到的样本特征,构造了地理选择题的样本特征对,并使用支持向量机和逻辑斯蒂回归这两个经典方法对机器学习在答案排序中的应用进行了探索。

.......

参考文献(略)




本文编号:47307

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/lwfw/47307.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户74902***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com