基于机器学习的汉语作文语法错误检测方法研究及其应用
发布时间:2021-09-15 14:55
汉语作为一种重要的交际工具逐步被世界各国人民所认可,在学习汉语的过程中,写作被许多研究者认为是评价语言学习者学习效果最有效的工具之一,但人工批改汉语作文需要大量的人力,且需要耗费较长时间,不能给语言学习者及时有效的反馈和分析。而且,汉语本身的复杂性也给人工批改增加了难度。本文旨在构建能够检测出汉语语法错误的机器学习算法模型,并将所训练出的模型应用于汉语作文语法检测系统中,以节约大量人工批阅作文的时间和人力成本,将教师从繁重而重复的评价活动中解放,与此同时使学习者能较快地得到及时客观的反馈,清晰地了解到自己在汉语学习中易犯的语法错误,对汉语学习者的自主学习起到了一定辅助作用。本文以理论和实践相结合,探索基于机器学习的汉语语法检测方法及其应用。具体工作包括(1)通过对文献进行定性数据分析,揭示近年来教育领域中不同机器学习模型的使用频次和变化趋势。(2)通过国内外研究综述,对语法检测的常用策略进行了归纳分类。(3)构建了条件随机场模型、LSTM-CRF模型和多任务学习模型这三个不同的机器学习算法模型进行汉语语法检测,并对三个模型进行评估分析,选出了效果最优的模型。(4)设计并开发了汉语作文语...
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
NVivo编码表
华东师范大学硕士学位论文4图1-1NVivo编码表使用上述编码系统对这三年NLPTEA的所有的文章统一进行分析后,生成了如图1-2所示的层次图,从图中我们可以清晰地发现,从主节点来看,机器学习方法的比例远高于基于统计的方法和基于规则的方法。在分析子节点后可以发现在机器学习的方法中,基于神经网络的算法模型占比明显高于其他方法,且能捕捉更多上下文信息的LSTM(LongShortTimeMemory)长短时记忆神经网络模型在自然语言处理的教育应用中得到最广泛的使用。图1-2NVivo各结点层次图
华东师范大学硕士学位论文81.汉语语法检测系统或工具目前对于汉语的语法检测基本还停留在研究阶段,阿里巴巴、百度等科技公司都在此任务上进行了研究尝试,其中百度提供了开放API接口,但暂时并无可视化界面供学习者体验。还有一些研究者自行开发的开源项目,如pycorrector、Cn_Speck_Checker、Chinese“spelling”errorcorrection等,大多也没有可视化界面,返回值均为代码,且实际使用效果也不佳,对于没有技术基础的学习者来说很难使用。从现有的系统分析来看,汉语语法检测系统确实有一定的难度,且还处于起步阶段。本节选取了百度文本纠错和中文纠错开源项目Pycorrector为例进行了具体分析。(1)百度文本纠错(仅提供开放API接口,无可视化界面)百度的文本纠错属于百度AI开放平台自然语言处理应用API接口中的一个一个,暂无可视化界面。该接口可以识别输入文本中有错误的片段,提示错误并给出正确的文本结果。支持短文本、长文本、语音等内容的错误识别。接口返回示例如所示。返回的参数包括语法错误的开始和结束位置、错误的词、替换的词、原句和替换的句子,还有模型置信度的打分,但并没有对语法错误进行分类。这类接口仅适合开发人员或研究者使用,不适用于普通学习者。图1-3百度文本纠错接口返回示例(2)中文纠错开源项目PycorrectorPycorrector是一个开源项目,同时配有简单的可视化文本纠错体验区,支持用户在输入框内输入长文本。但返回结果依旧是代码形式,如所示,返回的内容
【参考文献】:
期刊论文
[1]基于自动作文评分系统的数字化写作平台的构建及应用效果探究[J]. 宋毅宁. 英语广场. 2019(10)
[2]汉语作文自动评价及其关键技术——来自作文自动评价(AEE)的经验[J]. 吴恩慈,田俊华. 教育测量与评价. 2019(08)
[3]基于CRF和BI-LSTM的命名实体识别方法[J]. 柏兵,侯霞,石松. 北京信息科技大学学报(自然科学版). 2018(06)
[4]人工智能教育应用的新发展[J]. 冯翔,王亚飞,吴永和. 现代教育技术. 2018(12)
[5]深度学习研究综述[J]. 张荣,李伟平,莫同. 信息与控制. 2018(04)
[6]基于深度学习的代码分析研究综述[J]. 张峰逸,彭鑫,陈驰,赵文耘. 计算机应用与软件. 2018(06)
[7]人工智能教育应用的现状分析、典型特征与发展趋势[J]. 梁迎丽,刘陈. 中国电化教育. 2018(03)
[8]构筑“人工智能+教育”的生态系统[J]. 吴永和,刘博文,马晓玲. 远程教育杂志. 2017(05)
[9]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[10]基于语料库的英语专业高年级学生口语词块结构特征研究[J]. 胡元江. 外语研究. 2015(05)
硕士论文
[1]作文自动评价系统在高中英语写作教学中的应用研究[D]. 邹思琦.江苏大学 2019
[2]Bi-LSTM-CRF模型在中文语法错误诊断中的应用研究[D]. 刘升.华中师范大学 2019
[3]面向问答的中文语法错误自动检测方法研究[D]. 韩文颖.哈尔滨工业大学 2015
[4]基于实例语境的语音识别后文本检错与纠错研究[D]. 龙丽霞.北京邮电大学 2010
[5]汉语作为第二语言测试的作文自动评分研究[D]. 李亚男.北京语言大学 2006
本文编号:3396284
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
NVivo编码表
华东师范大学硕士学位论文4图1-1NVivo编码表使用上述编码系统对这三年NLPTEA的所有的文章统一进行分析后,生成了如图1-2所示的层次图,从图中我们可以清晰地发现,从主节点来看,机器学习方法的比例远高于基于统计的方法和基于规则的方法。在分析子节点后可以发现在机器学习的方法中,基于神经网络的算法模型占比明显高于其他方法,且能捕捉更多上下文信息的LSTM(LongShortTimeMemory)长短时记忆神经网络模型在自然语言处理的教育应用中得到最广泛的使用。图1-2NVivo各结点层次图
华东师范大学硕士学位论文81.汉语语法检测系统或工具目前对于汉语的语法检测基本还停留在研究阶段,阿里巴巴、百度等科技公司都在此任务上进行了研究尝试,其中百度提供了开放API接口,但暂时并无可视化界面供学习者体验。还有一些研究者自行开发的开源项目,如pycorrector、Cn_Speck_Checker、Chinese“spelling”errorcorrection等,大多也没有可视化界面,返回值均为代码,且实际使用效果也不佳,对于没有技术基础的学习者来说很难使用。从现有的系统分析来看,汉语语法检测系统确实有一定的难度,且还处于起步阶段。本节选取了百度文本纠错和中文纠错开源项目Pycorrector为例进行了具体分析。(1)百度文本纠错(仅提供开放API接口,无可视化界面)百度的文本纠错属于百度AI开放平台自然语言处理应用API接口中的一个一个,暂无可视化界面。该接口可以识别输入文本中有错误的片段,提示错误并给出正确的文本结果。支持短文本、长文本、语音等内容的错误识别。接口返回示例如所示。返回的参数包括语法错误的开始和结束位置、错误的词、替换的词、原句和替换的句子,还有模型置信度的打分,但并没有对语法错误进行分类。这类接口仅适合开发人员或研究者使用,不适用于普通学习者。图1-3百度文本纠错接口返回示例(2)中文纠错开源项目PycorrectorPycorrector是一个开源项目,同时配有简单的可视化文本纠错体验区,支持用户在输入框内输入长文本。但返回结果依旧是代码形式,如所示,返回的内容
【参考文献】:
期刊论文
[1]基于自动作文评分系统的数字化写作平台的构建及应用效果探究[J]. 宋毅宁. 英语广场. 2019(10)
[2]汉语作文自动评价及其关键技术——来自作文自动评价(AEE)的经验[J]. 吴恩慈,田俊华. 教育测量与评价. 2019(08)
[3]基于CRF和BI-LSTM的命名实体识别方法[J]. 柏兵,侯霞,石松. 北京信息科技大学学报(自然科学版). 2018(06)
[4]人工智能教育应用的新发展[J]. 冯翔,王亚飞,吴永和. 现代教育技术. 2018(12)
[5]深度学习研究综述[J]. 张荣,李伟平,莫同. 信息与控制. 2018(04)
[6]基于深度学习的代码分析研究综述[J]. 张峰逸,彭鑫,陈驰,赵文耘. 计算机应用与软件. 2018(06)
[7]人工智能教育应用的现状分析、典型特征与发展趋势[J]. 梁迎丽,刘陈. 中国电化教育. 2018(03)
[8]构筑“人工智能+教育”的生态系统[J]. 吴永和,刘博文,马晓玲. 远程教育杂志. 2017(05)
[9]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[10]基于语料库的英语专业高年级学生口语词块结构特征研究[J]. 胡元江. 外语研究. 2015(05)
硕士论文
[1]作文自动评价系统在高中英语写作教学中的应用研究[D]. 邹思琦.江苏大学 2019
[2]Bi-LSTM-CRF模型在中文语法错误诊断中的应用研究[D]. 刘升.华中师范大学 2019
[3]面向问答的中文语法错误自动检测方法研究[D]. 韩文颖.哈尔滨工业大学 2015
[4]基于实例语境的语音识别后文本检错与纠错研究[D]. 龙丽霞.北京邮电大学 2010
[5]汉语作为第二语言测试的作文自动评分研究[D]. 李亚男.北京语言大学 2006
本文编号:3396284
本文链接:https://www.wllwen.com/jiaoyulunwen/ktjx/3396284.html