面向高考问答的地理试题文本分析和标注研究
本文选题:问题理解 + 句子拆分 ; 参考:《南京大学》2017年硕士论文
【摘要】:人工智能技术正在飞速改变这个世界。在自然语言领域,围绕着自动问答系统(Question Answering,QA)开展了越来越多的研究。高效、智能的问答系统,致力于为用户提供更直接更优质的答案,可以从大量的知识储备中自动进行检索、推理,从而将用户从这些处理中解放出来。2011年,IBM的Watson问答机器人参加问答类综艺节目"Jeopardy!",并战胜了人类顶尖选手赢得冠军,自动问答系统再一次吸引了世人的眼光。从某种程度上来说,高考作为中国大多数中学生最重要的考试,可以看做是一种高水平的问答过程。本文的项目背景是面向中国高考地理试题的问答系统,并侧重于对选择题的解答。在解决高考自动问答的过程中,我们面临很多与传统问答系统不同的挑战:首先高考题的问答形式与传统自动问答系统存在明显区别;其次,高考题的灵活性远高于传统问答系统中的问题,这意味着我们很难从现成的文本中直接匹配、抽取得到答案。作为自动问答的第一步,问题理解的作用十分重要,这也是本文的工作重点。本文中将选择题题面和一个选项拼接成的完整句子作为分析的对象。对文本的理解可以分为两种:一是对句子间的篇章关系分析,二是对句子内部的语义关系理解。因此我们从两个方面来研究对于地理试题的理解问题:一方面是问题中子句间关系分类,另一方面是尝试使用AMR(Abstract Meaning Representation)对试题文本进行深层语义分析。本文中的句子拆分工作,是针对地理选择题的特点,提出了利用逗号对选择题的选项进行可能的拆分,将较长的原句转换成语义等价的多个简单句,从而简化后续处理步骤的输入,提高后续步骤的处理能力。在这项工作中,我们使用了最大熵分类器和基于规则的启发式方法,通过两个步骤来实现句子拆分:首先识别选项中的逗号是否可以作为一个分割点,然后再识别句子的从句或并列结构的公共前缀边界。AMR是一种具有较为强大表达能力的新型语义表示方法,它可以将一句话的语义用单根的、有向的连通图表示出来,更强调句子的抽象语义,而非具象的语法表达方式。但是由于围绕AMR的研究才刚刚起步,目前已有的AMR自动分析效果还有很大待提升的空间。中文AMR的标注语料规模较小,将AMR应用到中文的研究几乎还是空白。本文在AMR方面的工作主要是对现有AMR分析算法进行一些实验分析,并首次验证AMR标注体系及自动解析算法在中文上的性能。针对地理试题,我们标注了一个小样本的AMR语料,并用现有算法来验证AMR在特定领域文本上的处理能力。为了支撑上述两项问题理解的研究工作,我们还构建了一个地理试题标注工具,并通过这个工具建立一个高质量的地理试题语料库。除了可以标注句子分割和AMR这两种信息,该工具同时支持标注分词、词性、命名实体、地理术语、试题模板表示、成分句法等各项数据。
[Abstract]:Artificial intelligence is rapidly changing the world.In the field of natural language, more and more researches have been carried out around the question answering system (question answering QA).An efficient, intelligent question-and-answer system, dedicated to providing users with more direct and high-quality answers, can be automatically retrieved and reasoned from a large body of knowledge.In 2011, IBM's Watson Q & A robot took part in the catch-and-answer variety show "Jeopardy!" and beat the top human contestants to win the championship, and the automated question answering system once again attracted the world's attention.To some extent, college entrance examination is the most important examination for most middle school students in China.The background of this paper is a question and answer system for geography questions of Chinese college entrance examination, and focuses on the solution of multiple choice questions.In the process of solving the automatic question and answer system of the college entrance examination, we are faced with many challenges different from the traditional question answering system: first, there are obvious differences between the question and answer form of the college entrance examination questions and the traditional automatic question answering system; secondly,The flexibility of college entrance examination questions is much higher than that of the traditional question answering system, which means that it is difficult for us to directly match and extract answers from ready-made texts.As the first step of automatic question answering, the function of question understanding is very important, which is also the focus of this paper.In this paper, the multiple choice questions and a complete sentence mosaic as the object of analysis.The understanding of the text can be divided into two types: one is the analysis of the text relationship between sentences, the other is the understanding of the semantic relationship within the sentence.Therefore, we study the understanding of geographical questions from two aspects: on the one hand, the classification of the relationship between clauses in the problem, and on the other hand, we try to use AMR(Abstract Meaning representation to analyze the deep semantic of the text of the test.In this paper, according to the characteristics of geographical multiple choice questions, the possible split of multiple choice questions by comma is put forward, and the long original sentence is converted into several simple sentences with semantic equivalence.Thus, the input of subsequent processing steps is simplified and the processing ability of subsequent steps is improved.In this work, we use a maximum entropy classifier and a rule-based heuristic method to split sentences in two steps: first, we identify whether the comma in the option can be used as a split point.The common prefix boundary of the clause or paratactic structure of a sentence is then recognized. AMR is a new semantic representation method with relatively strong expressive ability, which can express the semantics of a sentence with a single root, directed connected graph.More emphasis is placed on the abstract semantics of sentences than on concrete grammatical expressions.However, because the research around AMR is just beginning, there is still much room for improvement in the effect of AMR automatic analysis.The tagging corpus of Chinese AMR is small, so the research of applying AMR to Chinese is almost blank.The main work of this paper in AMR is to do some experimental analysis on existing AMR analysis algorithms, and verify the performance of AMR annotation system and automatic parsing algorithm in Chinese for the first time.For geography questions, we annotate a small sample of AMR corpus, and use existing algorithms to verify the processing ability of AMR on specific domain text.In order to support the research work of understanding the above two questions, we also construct a geographical question marking tool, and establish a high-quality geographical question corpus through this tool.In addition to tagging sentence segmentation and AMR, the tool supports tagging participle, part of speech, naming entities, geographical terms, question template representation, component syntax and other data.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 倪盛俭;;文本蕴涵研究现状和发展趋势[J];云南民族大学学报(哲学社会科学版);2013年04期
2 费多益;;超文本:文本的解构与重构[J];哲学动态;2006年03期
3 李文;王炜立;;中文文本理解技术在法律案情文本分类中的应用[J];南昌大学学报(工科版);2007年01期
4 姚天f ;程希文;徐飞玉;汉思·乌思克尔特;王睿;;文本意见挖掘综述[J];中文信息学报;2008年03期
5 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
6 麻志毅;姚天顺;;基于情境的文本理解[J];计算机科学;1998年03期
7 熊小梅;刘永浪;;基于LSA的二次降维法在中文法律案情文本分类中的应用[J];电子测量技术;2007年10期
8 赵军;刘康;周光有;蔡黎;;开放式文本信息抽取[J];中文信息学报;2011年06期
9 石晶;李万龙;;三种主题分割方法的对比研究[J];计算机工程与应用;2009年18期
10 杨博;蔡东风;杨华;;开放式信息抽取研究进展[J];中文信息学报;2014年04期
相关会议论文 前3条
1 周险峰;;文本理解的张力:中国古代儒家教育智慧的解释学视角[A];纪念《教育史研究》创刊二十周年论文集(2)——中国教育思想史与人物研究[C];2009年
2 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
相关重要报纸文章 前2条
1 如东县马塘镇邱升中学 邱亚琴;教师研读文本[N];学知报;2011年
2 刘玲;批判之后,还剩下什么?[N];文学报;2011年
相关博士学位论文 前2条
1 周险峰;教育文本理解论[D];华东师范大学;2006年
2 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
相关硕士学位论文 前10条
1 余懿;崇祯本《金瓶梅》的插图研究[D];华中师范大学;2016年
2 刘懿;从文本到图像[D];重庆大学;2016年
3 俞文琳;对小学语文教材的诠释学之教育引论[D];福建师范大学;2016年
4 汤莲瑞;面向高考问答的地理试题文本分析和标注研究[D];南京大学;2017年
5 张天勇;理解与文本[D];苏州大学;2003年
6 李晓燕;文学文本理解中读者的主观性[D];福建师范大学;2004年
7 杜云阶;基于应急知识模型的文本知识获取研究[D];大连理工大学;2009年
8 马天;俄语新闻标题文本的认知解析[D];黑龙江大学;2013年
9 赵璞;在词汇层面上加强中国英语学习者的文化意识与文本理解的实证研究[D];贵州大学;2006年
10 王艳琴;阅读教学中的文本理解及其内在逻辑[D];首都师范大学;2014年
,本文编号:1753595
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1753595.html