基于决策树的英语文本难度评估研究

发布时间：2020-03-25 16:09

【摘要】：提高英语学习最好的办法是阅读。随着互联网技术和教育信息化的快速发展,网上可供选择的英语阅读材料越来越多,但问题是,海量的网络阅读材料容易让学习者迷失在资源的选择过滤中,无法准确高效地获取适合自己的阅读资源。因此,如何为学习者提供即符合其能力水平又满足其学习需求的个性化阅读材料逐渐成为教育技术研究领域关注的重点。而要为学习者提供符合其能力水平的阅读材料,首先要对阅读材料的难度进行评估。本文从影响英语阅读材料难度的最主要因素文本因素出发展开研究。关于文本难度(又称文本易读性或可读性)的研究已经有近一百年的历史了,但关于文本难度测量的方法却并不多,从已有文献中的研究成果来看,用于文本难度测量的主要方法有水平评估法,文本易读性公式法和机器学习。水平评估法的主观性太强,公式法虽可以客观量化文本可读性,但测量变量少且缺少科学的推理建模过程。机器学习是一种比较科学的研究方法,但目前使用的较少,且没有具体的研究成果。机器学习算法中,决策树可以在相对比较短的时间内对比较大型的数据集做出可行并且效果还不错的结果,而且易于理解和解释。因此,本文试图提出一种基于决策树的文本难度评估方法,以期提高英语文本难度评估的准确性和科学性。论文的主要工作内容包括:首先,介绍了本文所使用的研究方法,主要包括文献研究法,数理统计法和机器学习中的决策树分类法。并通过实验从26种可能影响文本难度的因素中选出了八个影响最大的因素来表征文本难度,作为决策树训练数据集中的属性。这八个影响因素分别是:篇幅/总词数,词族,全国英语等级考试1级词汇数量,最常用词汇数量,全国英语等级考试2级词汇数量,平均句子长度,全国英语等级考试3级词汇数量和从句数量。并将文本难度定义为Junior-middle(初中上),Junior-high(初中下),Senior-middle(高中上),Senior-high(高中下),College-1(大一)和 College-2(大二)6个等级。然后,选取人教版初的初中和高中教材,21世纪大学英语及新视野大学英语(第二版)这4套教材原文中的360篇课文文本作为训练数据集来构建决策树,并进行决策树的剪枝。最后,选取鲁教版初中教材和新世纪版本的高中教材以及大学精读英语和新视野大学英语的第三版这4套教材课文中的120篇文本作为测试数据集,对生成的决策树模型进行验证。由训练数据集构建的决策树模型对测试数据集的分类正确率是92.50%,基本证明了生成的决策树模型的有效性。论文的创新之处在于:(1)相较于传统的水平评估法主要依赖专家人为的主观判断来说,本文的研究方法更客观更科学。(2)传统公式法中的测量变量较少且基本是通过线性关系来量化文本难度,而决策树可以从多方面评估文本难度。(3)在其他使用机器学习算法评估文本难度的研究中,没有使用过决策树分类算法的,并且他们研究中的影响因素是根据以往经验主观定义的,本研究中的影响因素是通过机器学习算挑选得出的。
【图文】：

结构图,决策树,结构图

决策树是一种归纳分类算法，通过对训练集的学习，挖掘出有用的规则，用新数据集进行预测，是一种非参数学习算法，会对每个输入使用由该区域的训据计算得到对应的局部模型。逡逑决策树是一个树状结构，如图２．１所示，其中的每个内部节点（非叶子节都可以表示一个属性上的测试，根据样本在该属性上的不同取值将其划分成若子集分支，每个分支代表一个测试输出，每个叶节点代表一种类别，从决策树节点到叶节点的一条路径就形成了对相应对象的类别预测％。对于非纯的叶节选择到达这个节点的概率最大的类别作为最后的预测分类结果。逡逑决策树的基本算法是贪心算法，即总是做出在当前看来最好的选择，是在意义上的局部最优选择，，不从整体考虑最优１３３］。构造决策树的核心问题是在每如何选择适当的属性对样本做拆分，因此要慎重选择测试属性的依据，通常选是基于一个启发式规则或统计的度量，如ｇａｉｎ＿ｒａｔｉｏ邋（增益比率）和ｉｎｆｏｒｍａｔｉｏｎ邋ｇ（信息增益）以及ｇｉｎｉｊｎｄｅｘ邋（基尼指数）等。对于一个分类问题，从己知目性（具有标签ｌａｂｅｌ角色或是类ｃｌａｓｓ角色的属性）的训练样本中学习并构造出树是一个自上而下，分而治之的过程。逡逑１逦？（ｒｏｏｔ邋ｎｏｄｅ

词表,词汇,尖括号,词族

个“ｍｒｋ”的文件，其中会标记出来文本的单词是来自哪个基础词汇表。“Ｉｇｎｏｒｅ’ｏ”’逡逑表示检索过程中忽视待测文本中的尖括号0。逡逑表３．１邋Ｒａｎｇｅ中三个基础词表逡逑Ｗｏｒｄｌｉｓｔ逦Ｗｏｒｄ邋Ｆａｍｉｌｙ逦Ｔｙｐｅ逦Ｆｒｅｑｕｅｎｃｙ逡逑ｂａｓｅｗｒｄｌ逦９９８逦４１１９逦最常用逡逑ｂａｓｅｗｒｄ２逦９８８逦３７０８逦常用逡逑ｂａｓｅｗｒｄ３逦５７０逦３１０７逦次常用逡逑Ｒａｎｇｅ中的基础词表也可以是自制的词表，但选取的词汇表标准必须是很有权逡逑威性的。本研宄中除了量化Ｒａｎｇｅ中自带的基础词汇表之外，又另自制了邋５个词汇逡逑表，依据的基础是全国英语等级考试（ＰＥＴＳ）中的各级词汇标准，然后将词汇转化逡逑为纯文本格式的文档，并制作成词族形式的基础词汇表，形如图３．２所示。词族转逡逑化可以使用免费软件Ｆａｍｉｌｉｚｅｒ来进行。转化为基础词表后，命名为ｂａｓｅｗｒｄｌ，逡逑ｂａｓｅｗｒｄ２，邋ｂａｓｅｗｒｄ３，邋ｂａｓｅｗｒｄ４，邋ｂａｓｅｗｒｄ５，然后将制作完成的基础词汇表和Ｒａｎｇｅ逡逑软件放在同一个文件夹下。逡逑ｂａｓｅｗｒｄｌ．ｔｘｔ邋－记事本￣…：逦ｊｗｉｇＳｌｉｉｉｊ逡逑
【学位授予单位】：华中师范大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：G633.41;G434

【相似文献】