基于多维度特征与随机森林的对外汉语文本可读性评估
发布时间:2021-09-17 04:15
随着汉语国际推广事业的蓬勃发展,将汉语作为第二语言学习的人数与日俱增,对外汉语基础研究事业随之兴起,对外汉语文本可读性评估就是其中一个重要且不可或缺的研究方向。可读性指文本易于阅读的程度或性质,为第二语言学习者提供可读性与其语言掌握水平相匹配的阅读文本十分重要:难度过高的阅读文本会使其困顿不前从而受到打击,难度较低的阅读文本则会让学习者很快失去阅读兴趣并且不能使其学习到新的语言知识从而提高阅读水平。然而人工评估对外汉语文本可读性无论是对教师还是对学习者而言都费时费力且常常带有很强的主观性。本文针对此问题展开研究,主要贡献如下:(1)综述了国内外相关研究的发展、现状及研究成果:首先总结了国外可读性研究的三个阶段,分别是可读性公式、基于认知理论的可读性研究和基于机器学习的可读性分析。接着综述了对外汉语文本可读性研究的两个阶段:前期的基于传统文本特征的可读性公式,以及现阶段的基于机器学习的文本可读性评估。(2)提出了一种“基于多维度特征与随机森林的对外汉语文本可读性评估”(以下简称:Multi-D RF-CFLE)方法:随机森林是一种以决策树为基学习器的集成学习算法,因结构简单、泛化能力强在...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
图1.1可读性、第二语言可读性、对外汉语可读性关系图??发展阅读能力是学习语言的重要组成部分阅读文本对发展阅读能力的重要??
于分析句子语法结构。简单地说,语法树就是依照某一规则进行推导后生成的树状??图,树状图的层级指的是将语法分析的结果转换为树状图后树的层次结构,以此类??推[681,语法分析树的结构层次如图3.2所示。接下来我们根据语法树的分析结果提??取了语法特征12个,如表3.5所示。??k?‘?-?n?>??ROOT?^??I??IP??????—??????NP?VP??一—???????MP?NP?PP?VP??I?!????— ̄????NR?NN?P?NP?MSP?VP??I?I?I?一一^??I?I??炅林S茺祥柙?;?CP?NP?Pfi?W???—^?I?I??IP?DEC?NN??I?I?I??vp?tn?脅圩??ADVP?VP??AD?W?DER?VP??
C值过小且训练数据信息也过小,就失去了建模的意义I71]。高斯核SVM受核参数gamma的影响。综上,惩罚系数C和核函数参数gamma是影响器性能的关键参数,所以文中调参就以C、gamma为对象。??下面先介绍参数选择过程中常用到的两种方法:??(1)网格搜索法(Grid?Search):?SVM参数选择的常用方法,即将待调数在一定区间内按照一定的步长策略划分成网格,网格搜索法通网格中所有的点来寻找最优参数,是一种穷举搜索机制。在寻优区够大且步长足够小的情况下网格搜索法可以找出全局最优解[7G]。??(2)?k折交叉验证(k-foldCross-Validation):使用网格搜索法进行参数寻将各个网格点对应参数值输入SVM分类器进行训练,每次训练完需要进行性能评估,我们不能使用测试集,只能使用训练集数据。的性能评估方法有留出法、自助法和k折交叉验证法,其中k折交证法可以从有限的数据中尽可能获取多的有效信息,且当k取值合计算开销也是可以承受的。k折交叉验证使用的抽样为无重复抽样即每次迭代过程中每个样本点只有一次被划入训练集或测试集的以5折交叉验证为例,k折交叉验证的流程如图3.3所示:??Training?set??
本文编号:3397943
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
图1.1可读性、第二语言可读性、对外汉语可读性关系图??发展阅读能力是学习语言的重要组成部分阅读文本对发展阅读能力的重要??
于分析句子语法结构。简单地说,语法树就是依照某一规则进行推导后生成的树状??图,树状图的层级指的是将语法分析的结果转换为树状图后树的层次结构,以此类??推[681,语法分析树的结构层次如图3.2所示。接下来我们根据语法树的分析结果提??取了语法特征12个,如表3.5所示。??k?‘?-?n?>??ROOT?^??I??IP??????—??????NP?VP??一—???????MP?NP?PP?VP??I?!????— ̄????NR?NN?P?NP?MSP?VP??I?I?I?一一^??I?I??炅林S茺祥柙?;?CP?NP?Pfi?W???—^?I?I??IP?DEC?NN??I?I?I??vp?tn?脅圩??ADVP?VP??AD?W?DER?VP??
C值过小且训练数据信息也过小,就失去了建模的意义I71]。高斯核SVM受核参数gamma的影响。综上,惩罚系数C和核函数参数gamma是影响器性能的关键参数,所以文中调参就以C、gamma为对象。??下面先介绍参数选择过程中常用到的两种方法:??(1)网格搜索法(Grid?Search):?SVM参数选择的常用方法,即将待调数在一定区间内按照一定的步长策略划分成网格,网格搜索法通网格中所有的点来寻找最优参数,是一种穷举搜索机制。在寻优区够大且步长足够小的情况下网格搜索法可以找出全局最优解[7G]。??(2)?k折交叉验证(k-foldCross-Validation):使用网格搜索法进行参数寻将各个网格点对应参数值输入SVM分类器进行训练,每次训练完需要进行性能评估,我们不能使用测试集,只能使用训练集数据。的性能评估方法有留出法、自助法和k折交叉验证法,其中k折交证法可以从有限的数据中尽可能获取多的有效信息,且当k取值合计算开销也是可以承受的。k折交叉验证使用的抽样为无重复抽样即每次迭代过程中每个样本点只有一次被划入训练集或测试集的以5折交叉验证为例,k折交叉验证的流程如图3.3所示:??Training?set??
本文编号:3397943
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3397943.html