基于随机森林算法的对外汉语文本可读性评估
发布时间:2021-01-12 11:24
可读性指文本易于阅读的程度或性质,评估对外汉语文本可读性在对外汉语教学中十分重要。文章针对对外汉语文本可读性难以人工评估的问题,提出了一种基于随机森林算法的对外汉语文本可读性自动评估方法。该方法从基础特征、词性特征、等级特征和语法特征这四个维度提取特征,进行特征选择后在训练集上利用随机森林算法训练分类器,并在测试集上证实了该方法的有效性。
【文章来源】:中国教育信息化. 2019,(14)
【文章页数】:8 页
【部分图文】:
随机森林算法示意图能
所以接下来着重介绍一下“语法特征”的提取。我们采用斯坦福NLP小组研发的斯坦福解析器进行对外汉语文本的语法分析,具体工具使用的是NLTK提供的斯坦福语法解析器的python接口。该工具可以将一句话分析成语法树,将句子结构用图形表示,代表了句子的推导结果,可用于分析句子语法结构。简单来说,语法树就是按照某一规则进行推导后形成的树状图,树状图的层级是指将语法分析的结果转换为树状图后各节点的层次,以此类推[31]。语法分析树的结构层次如图1所示,接下来我们根据语法树的分析结果提取了语法特征12个,如表7所示。2.特征预处理将以上86个特征提取完毕后发现,特征数据差异较大,如特征“总字次”的取值区间为[109,4621],特征“语法分析树平均节点数”的取值区间为[39.493151,180.6],所以在对特征进行特征选择之前,需要对特征进行数据预处理。本研究中采用了区间缩放法,公式表达为:x'=x-MinMax-Min公式1采用区间缩放法后,每个特征的取值范围都在[0,1]区间,避免了由于特征取值范围差异巨大而影响后期的特征选择、分类器训练。3.特征选择特征选择定义如下:给定一组候选特征,选择出在某个分类器下最佳的子集[32]。特征选择可以去除无关特序号特征名注释11级词种数一级常用汉语词种数22级词种数二级常用汉语词种数33级词种数三级常用汉语词种数44级词种数四级常用汉语词种数55级词种数五级常用汉语词种数66级词种数六级常用汉语词种数71-6难度和所有词语等级之和81级词种词频1级去重词语的词频92级词种词频2级去重词语
所以接下来着重介绍一下“语法特征”的提取。我们采用斯坦福NLP小组研发的斯坦福解析器进行对外汉语文本的语法分析,具体工具使用的是NLTK提供的斯坦福语法解析器的python接口。该工具可以将一句话分析成语法树,将句子结构用图形表示,代表了句子的推导结果,可用于分析句子语法结构。简单来说,语法树就是按照某一规则进行推导后形成的树状图,树状图的层级是指将语法分析的结果转换为树状图后各节点的层次,以此类推[31]。语法分析树的结构层次如图1所示,接下来我们根据语法树的分析结果提取了语法特征12个,如表7所示。2.特征预处理将以上86个特征提取完毕后发现,特征数据差异较大,如特征“总字次”的取值区间为[109,4621],特征“语法分析树平均节点数”的取值区间为[39.493151,180.6],所以在对特征进行特征选择之前,需要对特征进行数据预处理。本研究中采用了区间缩放法,公式表达为:x'=x-MinMax-Min公式1采用区间缩放法后,每个特征的取值范围都在[0,1]区间,避免了由于特征取值范围差异巨大而影响后期的特征选择、分类器训练。3.特征选择特征选择定义如下:给定一组候选特征,选择出在某个分类器下最佳的子集[32]。特征选择可以去除无关特序号特征名注释11级词种数一级常用汉语词种数22级词种数二级常用汉语词种数33级词种数三级常用汉语词种数44级词种数四级常用汉语词种数55级词种数五级常用汉语词种数66级词种数六级常用汉语词种数71-6难度和所有词语等级之和81级词种词频1级去重词语的词频92级词种词频2级去重词语
【参考文献】:
期刊论文
[1]基于组合分类器的DDoS攻击流量分布式检测模型[J]. 贾斌,马严,赵翔. 华中科技大学学报(自然科学版). 2016(S1)
[2]一种基于组策略的过滤式特征选择算法[J]. 许尧,胡学钢,李培培. 计算机应用研究. 2016(05)
[3]中级欧美留学生汉语文本可读性公式研究[J]. 左虹,朱勇. 世界汉语教学. 2014(02)
[4]基于词性和中心点改进的文本聚类方法[J]. 施侃晟,刘海涛,宋文涛. 模式识别与人工智能. 2012(06)
[5]汉语国际推广背景下的词汇等级标准研究[J]. 孙晓明. 民族教育研究. 2012(01)
[6]基于语法树高度的汉语韵律短语预测[J]. 杨鸿武,王晓丽,陈龙,裴东,郭威彤,蔡莲红. 计算机工程与应用. 2010(36)
[7]基于条件随机场(CRFs)的中文词性标注方法[J]. 洪铭材,张阔,唐杰,李涓子. 计算机科学. 2006(10)
[8]易读性研究概述[J]. 李绍山. 解放军外国语学院学报. 2000(04)
[9]汉语自动分词研究综述[J]. 骆正清,陈增武,王泽兵,胡上序. 浙江大学学报(自然科学版). 1997(03)
[10]新一代对外汉语教材的展望——再谈汉语教材的编写原则[J]. 刘珣. 世界汉语教学. 1994(01)
硕士论文
[1]对外汉语文本易读性公式研究[D]. 郭望皓.上海交通大学 2010
[2]高级汉语精读教材语言难度测定研究[D]. 杨金余.北京大学 2008
[3]初中级日韩留学生文本可读性公式初探[D]. 王蕾.北京语言大学 2005
本文编号:2972765
【文章来源】:中国教育信息化. 2019,(14)
【文章页数】:8 页
【部分图文】:
随机森林算法示意图能
所以接下来着重介绍一下“语法特征”的提取。我们采用斯坦福NLP小组研发的斯坦福解析器进行对外汉语文本的语法分析,具体工具使用的是NLTK提供的斯坦福语法解析器的python接口。该工具可以将一句话分析成语法树,将句子结构用图形表示,代表了句子的推导结果,可用于分析句子语法结构。简单来说,语法树就是按照某一规则进行推导后形成的树状图,树状图的层级是指将语法分析的结果转换为树状图后各节点的层次,以此类推[31]。语法分析树的结构层次如图1所示,接下来我们根据语法树的分析结果提取了语法特征12个,如表7所示。2.特征预处理将以上86个特征提取完毕后发现,特征数据差异较大,如特征“总字次”的取值区间为[109,4621],特征“语法分析树平均节点数”的取值区间为[39.493151,180.6],所以在对特征进行特征选择之前,需要对特征进行数据预处理。本研究中采用了区间缩放法,公式表达为:x'=x-MinMax-Min公式1采用区间缩放法后,每个特征的取值范围都在[0,1]区间,避免了由于特征取值范围差异巨大而影响后期的特征选择、分类器训练。3.特征选择特征选择定义如下:给定一组候选特征,选择出在某个分类器下最佳的子集[32]。特征选择可以去除无关特序号特征名注释11级词种数一级常用汉语词种数22级词种数二级常用汉语词种数33级词种数三级常用汉语词种数44级词种数四级常用汉语词种数55级词种数五级常用汉语词种数66级词种数六级常用汉语词种数71-6难度和所有词语等级之和81级词种词频1级去重词语的词频92级词种词频2级去重词语
所以接下来着重介绍一下“语法特征”的提取。我们采用斯坦福NLP小组研发的斯坦福解析器进行对外汉语文本的语法分析,具体工具使用的是NLTK提供的斯坦福语法解析器的python接口。该工具可以将一句话分析成语法树,将句子结构用图形表示,代表了句子的推导结果,可用于分析句子语法结构。简单来说,语法树就是按照某一规则进行推导后形成的树状图,树状图的层级是指将语法分析的结果转换为树状图后各节点的层次,以此类推[31]。语法分析树的结构层次如图1所示,接下来我们根据语法树的分析结果提取了语法特征12个,如表7所示。2.特征预处理将以上86个特征提取完毕后发现,特征数据差异较大,如特征“总字次”的取值区间为[109,4621],特征“语法分析树平均节点数”的取值区间为[39.493151,180.6],所以在对特征进行特征选择之前,需要对特征进行数据预处理。本研究中采用了区间缩放法,公式表达为:x'=x-MinMax-Min公式1采用区间缩放法后,每个特征的取值范围都在[0,1]区间,避免了由于特征取值范围差异巨大而影响后期的特征选择、分类器训练。3.特征选择特征选择定义如下:给定一组候选特征,选择出在某个分类器下最佳的子集[32]。特征选择可以去除无关特序号特征名注释11级词种数一级常用汉语词种数22级词种数二级常用汉语词种数33级词种数三级常用汉语词种数44级词种数四级常用汉语词种数55级词种数五级常用汉语词种数66级词种数六级常用汉语词种数71-6难度和所有词语等级之和81级词种词频1级去重词语的词频92级词种词频2级去重词语
【参考文献】:
期刊论文
[1]基于组合分类器的DDoS攻击流量分布式检测模型[J]. 贾斌,马严,赵翔. 华中科技大学学报(自然科学版). 2016(S1)
[2]一种基于组策略的过滤式特征选择算法[J]. 许尧,胡学钢,李培培. 计算机应用研究. 2016(05)
[3]中级欧美留学生汉语文本可读性公式研究[J]. 左虹,朱勇. 世界汉语教学. 2014(02)
[4]基于词性和中心点改进的文本聚类方法[J]. 施侃晟,刘海涛,宋文涛. 模式识别与人工智能. 2012(06)
[5]汉语国际推广背景下的词汇等级标准研究[J]. 孙晓明. 民族教育研究. 2012(01)
[6]基于语法树高度的汉语韵律短语预测[J]. 杨鸿武,王晓丽,陈龙,裴东,郭威彤,蔡莲红. 计算机工程与应用. 2010(36)
[7]基于条件随机场(CRFs)的中文词性标注方法[J]. 洪铭材,张阔,唐杰,李涓子. 计算机科学. 2006(10)
[8]易读性研究概述[J]. 李绍山. 解放军外国语学院学报. 2000(04)
[9]汉语自动分词研究综述[J]. 骆正清,陈增武,王泽兵,胡上序. 浙江大学学报(自然科学版). 1997(03)
[10]新一代对外汉语教材的展望——再谈汉语教材的编写原则[J]. 刘珣. 世界汉语教学. 1994(01)
硕士论文
[1]对外汉语文本易读性公式研究[D]. 郭望皓.上海交通大学 2010
[2]高级汉语精读教材语言难度测定研究[D]. 杨金余.北京大学 2008
[3]初中级日韩留学生文本可读性公式初探[D]. 王蕾.北京语言大学 2005
本文编号:2972765
本文链接:https://www.wllwen.com/jiaoyulunwen/duiwaihanyulunwen/2972765.html