基于决策树的英语文本难度评估研究
【图文】:
决策树是一种归纳分类算法,通过对训练集的学习,挖掘出有用的规则,用新数据集进行预测,是一种非参数学习算法,会对每个输入使用由该区域的训据计算得到对应的局部模型。逡逑决策树是一个树状结构,如图2.1所示,其中的每个内部节点(非叶子节都可以表示一个属性上的测试,根据样本在该属性上的不同取值将其划分成若子集分支,每个分支代表一个测试输出,每个叶节点代表一种类别,从决策树节点到叶节点的一条路径就形成了对相应对象的类别预测%。对于非纯的叶节选择到达这个节点的概率最大的类别作为最后的预测分类结果。逡逑决策树的基本算法是贪心算法,即总是做出在当前看来最好的选择,是在意义上的局部最优选择,,不从整体考虑最优133]。构造决策树的核心问题是在每如何选择适当的属性对样本做拆分,因此要慎重选择测试属性的依据,通常选是基于一个启发式规则或统计的度量,如gain_ratio邋(增益比率)和information邋g(信息增益)以及ginijndex邋(基尼指数)等。对于一个分类问题,从己知目性(具有标签label角色或是类class角色的属性)的训练样本中学习并构造出树是一个自上而下,分而治之的过程。逡逑1逦?(root邋node
个“mrk”的文件,其中会标记出来文本的单词是来自哪个基础词汇表。“Ignore’o”’逡逑表示检索过程中忽视待测文本中的尖括号0。逡逑表3.1邋Range中三个基础词表逡逑Wordlist逦Word邋Family逦Type逦Frequency逡逑basewrdl逦998逦4119逦最常用逡逑basewrd2逦988逦3708逦常用逡逑basewrd3逦570逦3107逦次常用逡逑Range中的基础词表也可以是自制的词表,但选取的词汇表标准必须是很有权逡逑威性的。本研宄中除了量化Range中自带的基础词汇表之外,又另自制了邋5个词汇逡逑表,依据的基础是全国英语等级考试(PETS)中的各级词汇标准,然后将词汇转化逡逑为纯文本格式的文档,并制作成词族形式的基础词汇表,形如图3.2所示。词族转逡逑化可以使用免费软件Familizer来进行。转化为基础词表后,命名为basewrdl,逡逑basewrd2,邋basewrd3,邋basewrd4,邋basewrd5,然后将制作完成的基础词汇表和Range逡逑软件放在同一个文件夹下。逡逑basewrdl.txt邋-记事本 ̄…:逦jwigSliiij逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G633.41;G434
【相似文献】
相关期刊论文 前10条
1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
3 娄道国;李若斌;刘冰;张冬冬;;云计算下各分散文本数据的全方位集成融合方法[J];科技通报;2019年02期
4 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期
5 李柯;佐々木勇和;;基于多维小波聚类的空间文本数据情感分布分析[J];数据分析与知识发现;2019年07期
6 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期
7 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期
8 马欣欣;林克;;大文本数据快速分析统计理论与算法[J];电子元器件与信息技术;2019年01期
9 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期
10 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期
相关会议论文 前10条
1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
3 周纯洁;黎]
本文编号:2600111
本文链接:https://www.wllwen.com/jiaoyulunwen/chuzhongjiaoyu/2600111.html