当前位置:主页 > 教育论文 > 初中教育论文 >

基于决策树的英语文本难度评估研究

发布时间:2020-03-25 16:09
【摘要】:提高英语学习最好的办法是阅读。随着互联网技术和教育信息化的快速发展,网上可供选择的英语阅读材料越来越多,但问题是,海量的网络阅读材料容易让学习者迷失在资源的选择过滤中,无法准确高效地获取适合自己的阅读资源。因此,如何为学习者提供即符合其能力水平又满足其学习需求的个性化阅读材料逐渐成为教育技术研究领域关注的重点。而要为学习者提供符合其能力水平的阅读材料,首先要对阅读材料的难度进行评估。本文从影响英语阅读材料难度的最主要因素文本因素出发展开研究。关于文本难度(又称文本易读性或可读性)的研究已经有近一百年的历史了,但关于文本难度测量的方法却并不多,从已有文献中的研究成果来看,用于文本难度测量的主要方法有水平评估法,文本易读性公式法和机器学习。水平评估法的主观性太强,公式法虽可以客观量化文本可读性,但测量变量少且缺少科学的推理建模过程。机器学习是一种比较科学的研究方法,但目前使用的较少,且没有具体的研究成果。机器学习算法中,决策树可以在相对比较短的时间内对比较大型的数据集做出可行并且效果还不错的结果,而且易于理解和解释。因此,本文试图提出一种基于决策树的文本难度评估方法,以期提高英语文本难度评估的准确性和科学性。论文的主要工作内容包括:首先,介绍了本文所使用的研究方法,主要包括文献研究法,数理统计法和机器学习中的决策树分类法。并通过实验从26种可能影响文本难度的因素中选出了八个影响最大的因素来表征文本难度,作为决策树训练数据集中的属性。这八个影响因素分别是:篇幅/总词数,词族,全国英语等级考试1级词汇数量,最常用词汇数量,全国英语等级考试2级词汇数量,平均句子长度,全国英语等级考试3级词汇数量和从句数量。并将文本难度定义为Junior-middle(初中上),Junior-high(初中下),Senior-middle(高中上),Senior-high(高中下),College-1(大一)和 College-2(大二)6个等级。然后,选取人教版初的初中和高中教材,21世纪大学英语及新视野大学英语(第二版)这4套教材原文中的360篇课文文本作为训练数据集来构建决策树,并进行决策树的剪枝。最后,选取鲁教版初中教材和新世纪版本的高中教材以及大学精读英语和新视野大学英语的第三版这4套教材课文中的120篇文本作为测试数据集,对生成的决策树模型进行验证。由训练数据集构建的决策树模型对测试数据集的分类正确率是92.50%,基本证明了生成的决策树模型的有效性。论文的创新之处在于:(1)相较于传统的水平评估法主要依赖专家人为的主观判断来说,本文的研究方法更客观更科学。(2)传统公式法中的测量变量较少且基本是通过线性关系来量化文本难度,而决策树可以从多方面评估文本难度。(3)在其他使用机器学习算法评估文本难度的研究中,没有使用过决策树分类算法的,并且他们研究中的影响因素是根据以往经验主观定义的,本研究中的影响因素是通过机器学习算挑选得出的。
【图文】:

结构图,决策树,结构图


决策树是一种归纳分类算法,通过对训练集的学习,挖掘出有用的规则,用新数据集进行预测,是一种非参数学习算法,会对每个输入使用由该区域的训据计算得到对应的局部模型。逡逑决策树是一个树状结构,如图2.1所示,其中的每个内部节点(非叶子节都可以表示一个属性上的测试,根据样本在该属性上的不同取值将其划分成若子集分支,每个分支代表一个测试输出,每个叶节点代表一种类别,从决策树节点到叶节点的一条路径就形成了对相应对象的类别预测%。对于非纯的叶节选择到达这个节点的概率最大的类别作为最后的预测分类结果。逡逑决策树的基本算法是贪心算法,即总是做出在当前看来最好的选择,是在意义上的局部最优选择,,不从整体考虑最优133]。构造决策树的核心问题是在每如何选择适当的属性对样本做拆分,因此要慎重选择测试属性的依据,通常选是基于一个启发式规则或统计的度量,如gain_ratio邋(增益比率)和information邋g(信息增益)以及ginijndex邋(基尼指数)等。对于一个分类问题,从己知目性(具有标签label角色或是类class角色的属性)的训练样本中学习并构造出树是一个自上而下,分而治之的过程。逡逑1逦?(root邋node

词表,词汇,尖括号,词族


个“mrk”的文件,其中会标记出来文本的单词是来自哪个基础词汇表。“Ignore’o”’逡逑表示检索过程中忽视待测文本中的尖括号0。逡逑表3.1邋Range中三个基础词表逡逑Wordlist逦Word邋Family逦Type逦Frequency逡逑basewrdl逦998逦4119逦最常用逡逑basewrd2逦988逦3708逦常用逡逑basewrd3逦570逦3107逦次常用逡逑Range中的基础词表也可以是自制的词表,但选取的词汇表标准必须是很有权逡逑威性的。本研宄中除了量化Range中自带的基础词汇表之外,又另自制了邋5个词汇逡逑表,依据的基础是全国英语等级考试(PETS)中的各级词汇标准,然后将词汇转化逡逑为纯文本格式的文档,并制作成词族形式的基础词汇表,形如图3.2所示。词族转逡逑化可以使用免费软件Familizer来进行。转化为基础词表后,命名为basewrdl,逡逑basewrd2,邋basewrd3,邋basewrd4,邋basewrd5,然后将制作完成的基础词汇表和Range逡逑软件放在同一个文件夹下。逡逑basewrdl.txt邋-记事本 ̄…:逦jwigSliiij逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G633.41;G434

【相似文献】

相关期刊论文 前10条

1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期

2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

3 娄道国;李若斌;刘冰;张冬冬;;云计算下各分散文本数据的全方位集成融合方法[J];科技通报;2019年02期

4 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期

5 李柯;佐々木勇和;;基于多维小波聚类的空间文本数据情感分布分析[J];数据分析与知识发现;2019年07期

6 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期

7 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期

8 马欣欣;林克;;大文本数据快速分析统计理论与算法[J];电子元器件与信息技术;2019年01期

9 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期

10 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期

相关会议论文 前10条

1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年

3 周纯洁;黎]

本文编号:2600111


资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/chuzhongjiaoyu/2600111.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d9837***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com