当前位置:主页 > 教育论文 > 对外汉语论文 >

对外汉语阅读材料的可读性自动评估研究

发布时间:2020-05-06 12:01
【摘要】:对外汉语教学和个性化学习热潮的到来引起对外汉语阅读材料的需求量剧增,阅读材料越发丰富,编排难度设置合理的高质量对外汉语阅读材料能够为阅读理,解能力和水平不同的学习者提供更快速掌握一门语言的便利。因此本论文开展对外汉语阅读材料可读性自动评估研究。本文在借鉴已有的可读性评估研究基础上,从汉语本体角度综合考虑影响阅读材料难度的因素,应用自然语言处理技术和数据库管理技术提取对外汉语阅读材料的特征,结合统计机器学习方法对文本进行可读性评估。主要通过计算机文本分析工具对甄选有代表性的六套对外汉语中高级上下册教材文章和阅读材料进行自然语言处理,提取影响文本可读性的词语、语义、篇章等多个不同维度特征数据,构建可读性评估模型。本文的主要创新点如下:(1)从汉语本体角度考虑教材文本的可读性影响因素,主要甄选并提取词语、语义、篇章等多个大维度上的特征。在词语等级特征提取中,考虑到“同形多等级字”因素的影响处理重复数据并且结合《HSK词汇等级标准大纲》来确定词频。特征总数目达到48个,较为全面地提取专家编排教材的可读性设置渐变规律。另外分别从词语、语义、篇章和整体四大维度构建可读性评估模型,从具体维度进行具体分析,多层面评估阅读材料可读性。(2)利用SVM算法分别进行分类和回归建模,在回归模型中,通过均匀分割的方法解决设置可读性取值标签的问题,相比较专家评估方法成本更低,也能有效避免模型过拟合问卷样本中存在的局部性特征。在目前构建的模型中,在独立的测试集上实验结果显示,分类算法结果优于均匀标签后的回归方法。然而回归方法中均匀分配难度值对文章可读性设置更加细致且精度更高,在今后教材的不断改编和发展下,仍将作为一种适用于可读性评估的可行性方法。
【图文】:

组织结构图,对外汉语,自动评估,可读性


1.2.3研究内容逡逑对外汉语阅读材料可读性自动评估涉及的研究内容主要包括汉语本体研宄和逡逑评估方法研究,见图1.邋1对外汉语阅读材料可读性自动评估研宄架构图。逡逑首先从汉语本体出发,探讨词语、语义、篇章等多个维度上的可读性影响因素;逡逑其次是评估方法的研宄包括自然语言处理技术和数据库管理技术对文本进行特征逡逑提取,选用合适的机器学习方法和评估指标进行可读性评估;最后通过可读性评估逡逑结果对应到汉语本体,具体分析哪些特征与文本可读性相关性强?文章可读性设置逡逑合理程度的区域范围以及存在的问题?从多角度对可读性评估结果进行分析和数逡逑据挖掘。最后将本研宄内容在现实中得到应用,构建对外汉语阅读材料的的智能专逡逑家评估系统。逡逑可读性评估(数据挖掘)逡逑A逦i\逡逑u.—逦——邋iL…逡逑机器学习模型逡逑对外汉语阅>逦训练与优化逡逑读材料和特逦!\}犲危铃澹垮义险魇菔占危掊澹樱渝义险缪″澹撸咤澹危蹋屑际酰樱危停儒义鲜菘忮危樱郑撸ゅ义虾河锉咎逖芯垮纹拦婪椒ㄑ芯垮义贤迹保倍酝夂河镌亩敛牧峡啥列宰远拦姥芯考芄雇煎义希保陈畚淖橹峁瑰义媳疚牡淖橹峁谷缦拢哄义系谝徽拢紫冉樯芰硕酝夂河镌亩敛牧峡啥列云拦赖难芯勘尘昂脱绣骋庖澹靛义厦鞔搜绣车闹匾院捅匾浴=幼挪隽搜芯磕勘辍⒛饨饩龅墓丶侍夂椭饕绣冲义夏谌荩嵌哉畚难绣陈雎绲母攀觥W詈罅芯倭吮疚牡淖橹峁梗於ū狙芯康腻义险逖芯克悸贰e义希冲义

本文编号:2651225

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/duiwaihanyulunwen/2651225.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户83041***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com