当前位置:主页 > 文艺论文 > 语言学论文 >

面向应用的汉语离合词识别

发布时间:2020-03-23 16:14
【摘要】:离合词的自动识别在英汉机器翻译、信息检索和语音识别等许多领域都有非常重要的影响。现有的针对离合词自动识别问题的研究以少量个例的离合词为主,而针对大规模语料的离合词研究目前还乏善可陈。本课题以1991-2004年十四年的新华社新闻语料作为原始语料进行离合词自动识别方法的研究,不仅规模较大,而且范围更广。本文研究的主要内容包括:离合词词表和候选离合词语料的构建。从原始语料中提取原始候选语料,并通过原始候选语料动态地生成离合词词表。由于离合词较强的规则性,使得本文所构建的离合词词表的正确性较高,且不依赖于现有已标注好的离合词词表。在得到离合词词表之后,将原始候选语料用该词表进行筛选得到后续工作所需的候选离合词语料。基于规则匹配的离合词自动识别方法研究。本文首先通过规则匹配的方式对候选离合词语料中的离合词进行判断。实验结果表明,规则匹配的方式在本文所使用的语料中实现了较高的精确率。基于传统机器学习方法的离合词自动识别方法研究。由于规则匹配的方式对于规则性不强的句子无法进行识别,因此本文尝试采用传统机器学习的方法对这类句子进行处理。首先针对这类句子的特点构建了特征模板;其次使用特征模板提取正负例句子的特征;最后利用K-近邻和支持向量机方法进行分类。实验结果表明,传统机器学习方法对规则匹配无法处理的句子取得了较为理想的识别效果。基于神经网络的离合词自动识别方法研究。传统机器学习方法虽然可以识别规则性不强的句子,但是它的劣势在于要设计大量的特征模板,特征的选取会对实验的结果造成一定的影响,而神经网络则很好地避免了特征提取的问题。因此,本文设计了基于注意力机制的循环神经网络模型来对规则匹配无法处理的句子进行识别。实验结果表明,该模型相比较于机器学习方法,识别效果又有了一定提升。离合词自动识别级联模型的构建。通过上述方法,本文分别构建了(1)规则匹配+KNN、(2)规则匹配+SVM、(3)规则匹配+神经网络3个级联模型用于离合词的自动识别,最后通过投票的方式综合三个级联模型的识别结果。实验结果表明,级联模型对语料中的离合词具有很好的识别效果,具有很强的实用性。
【图文】:

欧氏距离


因此本章尝试使用传统的机器学习方法中的K-规则匹配识别不了的离合词进行处理。逡逑邻算法基本原理逡逑邻算法介绍逡逑(K-MearestNeighbor,KNN)邋分类算法是最简单的分类路是:如果一个样本在特征空间中的K个最相似(即特本中的大多数属于某一个类别,,则该样本也属于这个类别择的邻居都是己经正确分类的对象。该方法在对分类的决或者几个样本的类别来决定待分类样本所属的类别[33]。逡逑N中,通过计算对象间距离来作为各个对象之间的非相似间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距欧氏距离:逡逑离是最容易直观理解的距离度量方法,我们日常接触到的离一般都是指欧氏距离。逡逑nY逡逑

面向应用的汉语离合词识别


KNN分类举例
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H136;TP18;TP391.1

【相似文献】

相关期刊论文 前10条

1 廖虹;;《现代汉语词典(第7版)》离合词讨论[J];洛阳理工学院学报(社会科学版);2019年02期

2 冯云;白迪迪;;浅议《发展汉语》(第二版)综合系列教材中离合词的编写[J];教育教学论坛;2019年17期

3 李春玲;韩晓明;;制约“着迷”类离合词入境介标隐、现机制探讨[J];语言与翻译;2017年04期

4 顾介鑫;杨亦鸣;马勇;沈兆勇;;离合词的音系特征及其神经基础研究[J];语言研究;2018年01期

5 孟晓慧;;针对汉语国际教育专业的离合词教学法研究[J];语文学刊;2016年12期

6 任凤琴;论离合词与词组的区分[J];语文学刊;2005年04期

7 钟运伟;;关于留学生“离合词教学”的一些思考[J];语文学刊;2010年19期

8 周艳芳;;关于离合词的几个问题的刍议[J];语文学刊;2010年19期

9 王海秀;近十年来的离合词研究综述[J];语文学刊;2004年05期

10 张凡;;浅析泰国学生离合词的使用偏误[J];汉字文化;2018年19期

相关会议论文 前4条

1 张琪;;近年对外汉语离合词教学研究综述[A];第五届北京地区对外汉语教学研究生学术论坛论文集[C];2012年

2 刘路;;对外汉语教学中动宾式离合词偏误分析及教学对策[A];荆楚学术2016年第三期 (总第四期)[C];2016年

3 龙煌汕;;对外汉语教材中兼类词词性标注问题考察——以《发展汉语》为例[A];北京地区对外汉语教学研究生论坛论文集[C];2013年

4 高松;赵怿怡;刘海涛;;汉语特殊结构的句法标注策略[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

相关重要报纸文章 前1条

1 肖晓晖 中国传媒大学文学院;由合至离:语言的类推机制[N];中国社会科学报;2011年

相关博士学位论文 前7条

1 王俊;现代汉语离合词研究[D];华中师范大学;2011年

2 王海峰;现代汉语离合词离析形式功能研究[D];北京语言大学;2008年

3 林美淑;对韩汉语教学离合词研究[D];山东大学;2005年

4 崔智娟;韩语母语者习得汉语动宾式离合词偏误研究[D];吉林大学;2014年

5 王家年;汉语vP的优选句法研究[D];上海外国语大学;2012年

6 元莲仙;汉韩语言对比研究及在对韩汉语教学中的应用[D];南开大学;2010年

7 阮氏怀芳;越南学生汉语语法习得偏误层级调查及其教学策略[D];华中师范大学;2016年

相关硕士学位论文 前10条

1 余碧瑶;泰国学习者汉语动宾式离合词偏误分析[D];云南师范大学;2019年

2 洪瑛霞(NURYANI);《HSK标准教程》(印尼语版)中离合词的教学研究[D];湖南师范大学;2019年

3 赵聿夕;面向应用的汉语离合词识别[D];南京师范大学;2019年

4 李姣姣;现代汉语动宾型离合词倒装研究[D];湖北师范大学;2019年

5 王小梅(Sahar Baderaldeen Ahmed);河北大学留学生汉语离合词习得偏误研究[D];河北大学;2019年

6 何茜;《发展汉语》初级教材中的离合词及非洲留学生习得偏误研究[D];渤海大学;2019年

7 吴潮;泰国中级汉语学习者离合词偏误分析[D];云南民族大学;2018年

8 王红;韩国中高级汉语学习者离合词习得偏误分析及教学对策[D];辽宁大学;2018年

9 周婷;对外汉语教学中动宾式离合词的偏误分析与教学策略[D];苏州大学;2018年

10 吴国歌;准中级阶段留学生动宾式离合词偏误考察及教学设计[D];华中师范大学;2018年



本文编号:2596966

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/2596966.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户93448***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com