中国大学生英语作文相似度检测系统的研究与设计
本文关键词: 作文评分 相似度检测 停用词 语义信息 聚类 出处:《中国科学技术大学》2017年硕士论文 论文类型:学位论文
【摘要】:随着自然语言技术的发展,越来越多高校在英语作文的教学过程中使用科技化的手段提高教学效率,英语作文的自动评分技术应运而生。国内现阶段有句酷、冰果等作文自动评分系统,但是这些系统中关于作文相似度检测的算法缺乏深度和针对性。而国外的相似度检测研究主要集中在对论文和代码这一类长文本的检测。因此,本文的主要研究内容通过改进和提出更具有针对性的相似度检测算法,最终开发出一款符合当代大学生英语写作特点的英语作文相似度检测系统。为了实现该目标,本文首先调研了中国大学生英语写作的特点,根据特点对英语作文进行分类,再针对不同类别的作文进行研究。针对单词量在60及以上的长作文,作者通过改进TCUSS聚类算法,设计了一种基于WordNet语义聚类的作文相似度算法。对于单词量在60以下的短作文,本文在验证了英语停用词的稳定性后,设计了一种全新的基于停用词的作文相似度检测算法。之后,本文基于新算法,设计并实现了计算机辅助批阅系统中的英语作文相似度检测系统。最后,本文收集了一定量的语料样本,分别对上述两种算法以及整体的英语作文相似度检测系统的效果进行了验证,并与K-means算法实验结果进行对比,验证了系统的优越性。本文提出的英语作文相似度检测算法,对大学英语写作教学和练习有很强的针对性。验证后发现,算法整体的正确率、召回率和F1测度都优于目前常用的相似度检测算法。最后相似度检测系统的设计采取了异步调用的方式,可满足计算机辅助批阅系统的大规模运用需求。
[Abstract]:With the development of natural language technology, more and more colleges and universities use scientific and technological means to improve teaching efficiency in the process of English composition teaching. Ice fruit and other composition automatic scoring system. But the similarity detection algorithms in these systems are lack of depth and pertinence, and the research of similarity detection abroad mainly focuses on the detection of long texts such as papers and codes. The main research content of this paper is to improve and propose a more targeted similarity detection algorithm. In order to achieve this goal, this paper first investigates the characteristics of Chinese college students' English writing. This paper classifies English compositions according to their characteristics, and then studies different types of compositions. For long compositions with a single word size of 60 or more, the author improves the TCUSS clustering algorithm. This paper designs a composition similarity algorithm based on WordNet semantic clustering. For short compositions with less than 60 words, this paper verifies the stability of English stop words. This paper designs a new similarity detection algorithm based on stop word. Then, based on the new algorithm, this paper designs and implements the English composition similarity detection system in the computer-aided marking system. Finally. In this paper, we collect a certain number of corpus samples, and verify the effectiveness of the two algorithms and the overall English composition similarity detection system, and compare the results with the K-means algorithm. The similarity detection algorithm proposed in this paper has strong pertinence for college English writing teaching and practice. After verification, it is found that the algorithm is correct as a whole. The recall rate and F1 measure are superior to the commonly used similarity detection algorithms. Finally, the similarity detection system is designed by asynchronous call, which can meet the needs of large-scale application of computer-aided marking system.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:H319.3
【参考文献】
相关期刊论文 前9条
1 吴思竹;钱庆;胡铁军;李丹亚;李军莲;洪娜;;词形还原方法及实现工具比较分析[J];现代图书情报技术;2012年03期
2 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
3 葛诗利;陈潇潇;;国外自动作文评分技术研究[J];外语电化教学;2007年05期
4 梁茂成;文秋芳;;国外作文自动评分系统评述及启示[J];外语电化教学;2007年05期
5 郑文;;大学英语写作中的篇章雷同现象分析[J];成都大学学报(教育科学版);2007年08期
6 文秋芳;;“作文内容”的构念效度研究——运用结构方程模型软件AMOS 5的尝试[J];外语研究;2007年03期
7 孙爽;章勇;;一种基于语义相似度的文本聚类算法[J];南京航空航天大学学报;2006年06期
8 李继锋,刘群;基于N-Gram模型的高速汉字编码识别系统[J];计算机工程与应用;2004年03期
9 濮建忠;中国学生英语动词语法和词汇型式使用特点初探[J];现代外语;2000年01期
相关博士学位论文 前1条
1 葛诗利;面向大学英语教学的通用计算机作文评分和反馈方法研究[D];北京语言大学;2008年
相关硕士学位论文 前3条
1 张思琪;基于WordNet的语义相似度计算方法的研究与应用[D];北京交通大学;2016年
2 刘令强;短文本相似度的关键技术研究[D];广西师范大学;2016年
3 华秀丽;文本抄袭检测方法研究[D];苏州大学;2012年
,本文编号:1446443
本文链接:https://www.wllwen.com/waiyulunwen/yingyulunwen/1446443.html