基于HSK动态作文语料库的留学生作文词熵统计分析
发布时间:2020-04-02 08:52
【摘要】:索绪尔指出,语言是一种社会现象,是一种表达观念的符号系统。在汉语作为第二语言的教学过程中,我们发现汉语水平较低的学习者掌握的词汇数量有限,写作中使用词汇范围小,而中高级的学习者一般不受常用词的限制,往往使用的词汇更多样。这种语言文本中符号的使用与信息量有关,信息熵的计算可以应用于任何类型的频率分布。本论文以北京语言大学“HSK动态作文语料库”为研究基础,从语言的信息属性出发,结合计量语言学、信息论、协同语言学等指导理论和观点,运用书面汉语“词熵”的原理和计算方法,对经过分词、标注词性的中介语熟语料进行词频、词熵统计分析。本研究从熵的角度考察了留学生作文在“国别”和“体裁”两方面词汇使用的共性与差异,并在此基础上从词汇计量研究层面的词汇多样性、词汇重复率、词汇独特性和高频词等方面对留学生作文词汇使用情况进行了描述分析。统计结果显示,词熵在不同国别和不同体裁的留学生作文之间有的存在显著性差异,有的不存在差异。其中(1)日、韩两国籍作文词熵不存在显著性差异,其余国籍词熵均存在显著性差异;(2)记叙文体与议论文体词熵不存在显著性差异,书信文体与记叙、议论文体均存在显著性差异。通过其他词汇测量指标进一步发现,文本的词熵存在显著性差异,则两个文本的词汇使用丰富度上也存在差异;文本词熵不存在显著性差异,则文本的词汇使用情况也相差不大。本研究的意义在于,首次从信息熵的角度,并分别从写作者的国别和写作体裁两个方面对二语习得语料库统计分析。最终发现,词熵所反映出来的词汇使用程度以及文本词熵的共性与差异,在二语习得者使用词汇过程中也可以体现出来,也就是基于词熵的二语习得的文本研究是可行的,这也为汉语词汇的习得研究提供新的角度和思路。
【图文】:
作文语料的选取过程图
十组语料的不同国籍的作文词汇TTR和H的统计比较图
【学位授予单位】:华侨大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H195
本文编号:2611730
【图文】:
作文语料的选取过程图
十组语料的不同国籍的作文词汇TTR和H的统计比较图
【学位授予单位】:华侨大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H195
【参考文献】
相关期刊论文 前10条
1 马燕;;基于相对熵的作品作者判定方法[J];文教资料;2014年31期
2 刘海涛;黄伟;;计量语言学的现状、理论与方法[J];浙江大学学报(人文社会科学版);2012年02期
3 李秀珍;;熵与文学[J];文学教育(下);2010年05期
4 塞麦提·麦麦提敏;塞麦提·麦麦提敏;塞麦提·麦麦提敏;;基于统计的维吾尔文信息熵的估计[J];电脑知识与技术;2009年04期
5 邵璐;;信息熵与文学翻译中模糊话语的量度——从《达芬奇密码》的源文本与目标文本选例[J];四川外语学院学报;2008年05期
6 邹铃声;;外国学生汉语语音习得中的熵现象及化石化现象[J];贵州大学学报(社会科学版);2006年04期
7 范凤祥;;轮机英语词汇的量化特征[J];大连海事大学学报(社会科学版);2006年02期
8 崔刚,盛永梅;语料库中语料的标注[J];清华大学学报(哲学社会科学版);2000年01期
9 冯志伟;;汉字的极限熵[J];中文信息;1996年02期
10 高定国,钟毅平,曾铃娟;字频影响常用汉字认知速度的实验研究[J];心理科学;1995年04期
相关博士学位论文 前1条
1 徐先蓬;汉语的熵及其在语言本体研究中的应用[D];山东大学;2013年
,本文编号:2611730
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2611730.html