当前位置:主页 > 文艺论文 > 汉语言论文 >

现代汉语重叠式的识别及统计分析

发布时间:2020-02-19 06:38
【摘要】:现代汉语形态缺乏,但重叠式还是比较丰富的。根据大规模语料调查显示,重叠式的能产性和派生性极强,利用重叠形式创造出的重叠新词数量在现代汉语中的比例仍然呈上升趋势,因此对重叠式的研究不能仅仅局限于语言理论的层面。本文将研究的着力点放在了语料库中的重叠式,进行了重叠式的抽取、切分不一致的比较、重叠式识别和统计等一系列研究。 本文首先对重叠式进行了较为系统的考察,包括与重叠式相关的几个概念的辨析,汉语词典和三大词表中重叠式的分布等情况,为下文识别和分析重叠式打下理论基础。通过对《现代汉语词典》及词表进行统计分析,从中发现一些语言学现象,并对《现汉》中重叠式的收录问题进行了初步探讨,提出了一些改进的意见。 其次本文对重叠式的切分错误统计及分析,该部分研究的对象有两个,一个是现有的分词语料库,另一个是成熟的分词软件。分别对它们的重叠式切分错误进行统计,并试图分析其切分错误的原因。文中以翔实的数据说明,重叠式切分上,流行的分词软件在错误率高达8%至48%,经人工校对后的分词语料库错误率也达到1%至11%(均依重叠类型和语料类型而有不同)。 本文通过引入正则表达式和CRF统计模型进行重叠式的识别研究。重叠式的识别工作主要有三个步骤,一是利用正则表达式提取重叠式的候选,二是利用词表过滤辅以人工校对的方法对重叠式候选进行筛选,三是利用CRF模型对重叠式的所属类型进行判定。识别结果表明,利用CRF对各种重叠式的判定正确率都能达到95%左右,是一个相当不错的结果。 文章最后利用前文研究产生的数据,对重叠式进行统计分析,试图分析其中隐藏的语言学现象。我们发现重叠现象与语体的庄重程度和语体语言的主观性程度有密切的关系,基式频率高于重叠式频率,不同重叠式之间的频率也有明显差异等等。这些规律的发现,对于语言学本体的研究有很好的参考价值。 本文的研究启发我们从新的角度研究重叠式,提高了我们对重叠式的认识,在一定程度上深化了重叠式的研究。
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:H146

【引证文献】

相关硕士学位论文 前1条

1 杨占豪;对外汉语教学中的描述性重叠词研究[D];苏州大学;2013年



本文编号:2580942

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/2580942.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0a884***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com