当前位置:主页 > 文艺论文 > 汉语言论文 >

基于搭配的现代汉语两词结构独立使用研究

发布时间:2017-12-01 22:18

  本文关键词:基于搭配的现代汉语两词结构独立使用研究


  更多相关文章: 词语搭配 词频统计 两词结构 独立使用


【摘要】:本文先用词频统计的方法,统计所有可能独立使用的两词结构,通过阈值确定能够独立使用的两词结构,再随机抽取其中部分与现代汉语常见短语进行比较,研究两词结构的构成规则、功能,判断两词结构能独立成句的类型。 本文的研究工作共分为五章展开论述: 第一章主要介绍了“搭配”的概念以及国内外有关有关搭配的实验研究,为本文的研究奠定基础,同时简要阐述了论文研究的目的、意义、研究方法与组织结构。 第二章分别介绍了中文分词与词性标注的相关情况,包括定义、方法和面临的困难,并基于本文研究的实际,建立适合下文实验的词性标注集。最后通过分词与标注测评,检验本文使用的分词软件与词性标注软件的正确率,验证其可靠性。 第三章通过测试语料实验确定合适的阈值,以获取能独立使用的两词结构,为下一步大规模语料实验做好准备。本章首先将所有在两个中文标点之间的两词结构全部抽取出来,并假设这些两词结构都能够独立使用,统计其独立使用的次数、在全文中出现的总次数和两词在全文中单独出现的次数,建立词表Fre1、 Fre2和Fre3。接着通过测试一划分高低频区并选择高频区两词结构,通过测试二(Frel/Fre2的比值判断某个两词结构在全文中共现是否偶然)和测试三(互信息值判断两词内部是否具有连接性及连接强度)共同设定阈值,排除不能独立使用的两词结构。 第四章为大规模语料实验,通过将实验获得的数据和现代汉语常见短语进行对比,判断获得的两词结构的构成规则和功能,从词语搭配的角度看哪些类型的两词结构能够独立成句。由于汉语词组(短语)的和句子的构造原则基本一致,我们研究两词结构的组合规则和功能,将对我们分析两词句有所帮助。首先我们沿用测试语料实验中设定的阈值筛选高频区数据,获得最终的实验结果,随机抽取其中1000个两词结构进行手动分析,先与现代汉语常见十种短语的构成规则表进行对比,观察两词结构的所属结构,再与现代汉语短语功能功能表对比,观察两词结构的所属功能,最后论及能够立成句的两词结构的类型。 第五章为结语,对本文所做的实验和结论进行总结,提出了本文客观存在的问题,并对未来可以开展的工作进行展望。
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:H146

【参考文献】

中国期刊全文数据库 前10条

1 邢公畹;语词搭配问题是不是语法问题?[J];安徽师大学报(哲学社会科学版);1978年04期

2 齐波;王成良;;现代汉语短语的机器识别[J];重庆工学院学报(自然科学版);2007年12期

3 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期

4 冯志伟;基于短语结构语法的自动句法分析方法[J];当代语言学;2000年02期

5 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

6 邓耀臣;词语搭配研究中的统计方法[J];大连海事大学学报(社会科学版);2003年04期

7 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期

8 程书秋;;现代汉语短语使用情况的优先序列考察[J];汉语学报;2012年02期

9 林杏光;词语搭配的性质与研究[J];汉语学习;1990年01期

10 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期



本文编号:1242661

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/1242661.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e0d07***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com