英语写作自动评改功能探究
摘 要:
摘 要:利用计算机科学并结合数学算法对英语语法规则进行分析,对于英语语法中的谓语动词部分的自动评改做出了相应的研究,并实现了英语作文自动评改平台。此系统主要包含两个方面:一是对作文中的单词的拼写的自动评改及反馈;二是对英语作文的谓语部分的自动检测。经测试,该系统可完成上述两大功能,实现作文的自动评改并反馈出错误信息,对于其它语法现象的自动评改和自动检错还有待完善。对于以英语作为第二语言学习的教学工作,该系统的研究和实现将在写作方面起到重要作用。
关键词:
关键词:计算机辅助学习 自动评改 自然语言处理 语法错误
1 研究背景
英语自动作文评分领域的开拓者是Page,他在1966年开发了Project Essay Grader(PEG)系统,目的就是为了使大规模作文评分更加实际而高效。但该系统是通过文章的浅层语言学形式特征的分析对作文进行评分,没有触及文章结构或者内容,这使得该领域的研究在上世纪90年代之前基本处于停滞状态。
1990年,美国教育考试中心(Educational Testing Service简写为ETS)开始研发Educational Testing Service I(ETS I)。虽然这个系统还没有考虑内容方面,且只能用来评测20个词以下的短句子,但它已更多地依靠对文章质量的直接测量进行评分。
另一条研究路线是由Larkey & Croft在1998年开辟的。她们所研发的系统是基于文本分类技术(Text Categorization Techniques简称为TCT)、文本复杂性特征、以及线性回归方法。类似的还有Rudner and Liang建立的基于统计分析的Bayesian Essay Test Scoring System(BETSY)系统。
国外目前较为完善的自动评分系统为E-rater( Eleclectic Essay Rater),是由美国教育测试服务中心(Educational Testing Centre)的Burstein博士及其研究小组利用自然语言处理(NLP)与信息撷取技术(IR,Information Retrieval)研究开发的一种英文在线测评英语写作能力的计算机程序。自1999年起,用该技术测评GMAT应试者的作文总量已逾60万篇,经与常规人工批阅作文的结果比较,评分的准确率超过97%。现在,美国研究生管理专业委员会(GMAC)已经认为E—Rater电子软件判分相对于传统的由教师阅读判分更有效。
国内自动作文评分研究尚处于起步阶段,梁茂成首先从自动作文评分领域进行初步的探索。他以提取浅层文本特征为主,结合针对内容的潜在语义分析,进行线性回归,得到了与人工评分较高的相关度。但由于其分析均以浅层特征的统计分析为主,以及样本数量、范围的局限性,其评分模型与实用系统尚存在一定的距离。目前,在国内从事作文自动评分研究的主要还有文秋芳教授主持的基于学习者语料库的英语作文训练评估系统项目和荀恩东博士主持的非母语写作水平计算机自动评测技术研究项目。由于非母语写作的特殊性,采用深层次的文本特征分析难度很大。其中较成熟的产品有冰果英语智能作文评阅系统,它是浙江大学团队携手中外人工智能专家队伍,经过多年自主研发,推出的个性化智能化互动网络英语学习系统。此外,南京大学高思丹等对主观试题的计算机自动批改技术做了综述;湘潭大学李辉阳等提出了带权匹配技术进行简单论述的正误判定。
2 英语写作自动评改平台研究
目前国内外的英语写作自动“评改”系统均是以英语作文自动评分为目的进行研究及开发的,其主要方法是利用了计算机的高速计算能力,根据文章之间的相似程度给出分数。这种方法对于以母语为英语的学习者来说,类似E-rater的软件系统能够客观的给出一个分数,并反映出写作者的实际写作水平。然而对于母语为非英语的学习者来说,需要系统提供反馈及建议,能够帮助非英语为母语的国家的学生来更好的学习英语。
2.1 设计思路
本研究首先针对实现以下两个功能:单词的自动评改和基本英语语法的自动检测。对于单词的自动评改部分,其技术已比较成熟。但由于这些英语单词软件作为商业软件,其源代码严格保密,本研究决定采用“基于多重索引模型的词典近似匹配算法”进行实现。
对于基本英语语法自动检测与分析部分,目前国内外还没有相应的系统出现,其设计也属于空白,而现有的此类系统只是给出分数,并不能给出错误所在。为了能实现语法错误的反馈,本文采用BF算法对其进行实现。
2.2 近似词典匹配算法
最简单的计算模式P的近似匹配的方法就是对背景词典的每一个单词w,计算P与w的编辑距离ed(P,w),从而确定P的所有近似匹配结果。有研究者对Wagner和Fischer提出的动态规划算法进行了改进,但由于背景词典一般都比较大,即便采用目前最好的计算编辑距离的算法,计算背景词典中每一个单词Ⅳ与P的编辑距离,从而确定P的近似匹配结果集也是不现实的。为了解决这个问题,研究者采用了两阶段匹配策略,将词典近似匹配过程分为两个阶段:粗匹配阶段和细匹配阶段。在粗匹配阶段通过一定策略过滤掉大部分不可能成为匹配结果的词典单词,使背景词典中只有少部分单词成为候选匹配结果;细匹配阶段对第一阶段产生的候选匹配结果集中的每一个单词W,计算w与用户输入模式P的编辑距离,从而确定最终的词典近似匹配结果集合R。由于细匹配阶段中速度较慢,因此两阶段匹配策略的速度很大程度上取决于粗匹配阶段产生的候选匹配结果数量。
N-gram索引是一个倒排索引,索引项为词典单词中所有连续N个字符的集合,索引项g的倒排链是词典中所有包含g的单词的ID集合。对于输入模式P,只有P中出现的N-gram对应倒排链中的单词才有可能成为最终匹配结果,因此细匹配阶段只需要对这些单词分别计算与P的编辑距离,即可得到最终的近似匹配结果集合。一般来说,采用N-gram索引后粗匹配阶段产生的候选匹配结果数量远远小于词典单词的总数,因此N—gram索引可以提高词典近似匹配的速度。自动机理论也逐步应用到词典的近似匹配领域,Oflazer提出的确定性有穷状态识别器(deterministic finite-state recognizer,FSR)就是其中一种基于自动机的词典近似匹配算法。Oflazer将背景词典D视为字母表三上的正则语言,FSR就是识别D中所有单词的有穷状态自动机。
词典近似匹配算法的速度很大程度上取决于粗匹配阶段产生的候选匹配结果数量,粗匹配阶段过滤掉的与输入模式P不可能相似的词典单词越多,在细匹配阶段需要计算编辑距离的单词数量就越少,近似匹配速度就越快。基于N—gram索引模型的近似匹配算法,N值的确定是关键.N值太大,可能会导致个别与输入模式P近似匹配的词典单词不能输出;N值太小会导致个别索引链特别长,从而导致匹配速度下降。传统的N—gram索引模型很难在匹配速度和匹配效果中找到最佳折衷。另外,传统N—gram索引模型对词典所有单词建立同一种索引,也是导致倒排链较长的主要原因。为了使粗匹配阶段过滤掉尽可能多的词典单词,提高近似匹配速度,文本提出了一种基于词典多重索引模型的近似匹配算法。
2.3 BF算法
BF(Brute Force)算法核心思想是:首先S[1]和T[1]比较(S是主串,T是子串),若相等,则再比较S[2]和T[2],一直到T[M]为止;若S[1]和T[1]不等,则T向 右移动一个字符的位置,再依次进行比较。如果存在k,1≤k≤N,且S[k+1…k+M]=T[1…M],则匹配成功;否则失败。该算法最坏情况下要进行 M*(N-M+1)次比较,时间复杂度为O(M*N)。
3 具体设计与检验
3.1 单词的自动评改
本文利用“BNC最常用15000词汇排序 BNC(British National corpus)”作为英语单词的准确单词数据库,对15000个单词进行正确的匹配。因为单词量较大,导致对一个单词的模式匹配时间过长,影响用户使用,对计算机要求计算速度很高。所以,本文用三重索引进行数据库的优化。步骤如下:
Step 1: 分割单词库
先用程序将“BNC最常用15000词汇排序 BNC(British National corpus)”单词格式进行修改,修改为纯单词形式。
Step2: 创建索引表
因为本文用三级索引来进行单词的查找。索引建立了三级索引目录表进行单词查找。
Step3: 组建单词数据库
我们将一般单词分为两类。一是单词字母数大于3。对这类单词就进行一级查找,找到二级表目名;再进行二级查找,找到三级表目名;最后进行相应的数据库查找。二是单词字母数小于3。因为本文用三级索引来进行单词处理,所以单词字母数小于3的单词添加到三级表目中会出现错误。所以,我们建立次三级表ThirdClass_A----ThirdClass_Z作为中间级别表。
Step 4: 查询单词
对每个单词进行分割,先判断组成单词的字母个数。将单词分为两类,分别进行查找。
3.2 基本英语语法的自动评改
由于本系统面向的是中学生英语作文以及大学cet-4或者cet-6的水平的英语作文,又由于英语语法涉及内容十分丰富与复杂,所以我们仅对进行英语语法中谓语动词部分的相关自动检测。但是,一旦谓语动词部分的检测能够成功,那么其他部分(例如主语、宾语)等部分的检测都能够通过相类似的方法手段获得成功。
由于英语语法涉及内容很多,而且十分复杂。所以,本研究只是对英语中基本的语法进行自动评改。
英语谓语动词涉及到动词的时态问题,形式问题,搭配问题,以及搭配中的动词这类问题。
以“He advises me to drink more water。”这句话为例,其中出现动词advises 、drink。
3.2.1 时态问题
本文编号:14585
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/14585.html