大中华区汉语变体识别研究

发布时间:2020-11-11 02:49
   自动语言识别是语言处理和语言理解的第一步,如何较为准确地检测文本所采用的语言是许多自然语言处理任务(例如:文本自动分类、机器翻译和多语言数据采集等)的首要步骤。近年来,随着自动语言识别研究的逐渐深入,不同种类的语言已经可以达到较高的识别率,但对于语言变体识别而言,由于该类语言资源相对缺乏,语言之间距离较近,语言变体的自动识别仍是一项具有挑战性的任务。大中华区由于受地域、历史、文化、社会环境等因素影响,各地区使用的汉语存在词汇、语法、语用等方面的差异,属于广义现代汉语下的变体。不同于传统的语言学,本文主要从计算语言学和自然语言处理的角度出发,开展大中华区汉语变体识别研究,并着重分析了大中华区汉语变体之间的差异性,主要研究内容体现在以下两个方面:(1)构建集成经典文本分类方法的大中华区汉语变体识别模型本文将经典的文本分类方法,包括传统的机器学习方法和基于深度学习的方法,利用多数投票算法集成构建了一个新的大中华区汉语变体识别模型,并将模型运用在大中华区新闻书面语的识别上。在抓取的分类语料数据集上进行实验,结果显示本文构建的大中华区汉语变体识别集成模型可以综合单个模型的优势,从而取得更好的识别效果。(2)构建基于SENet(Squeeze-and-Excitation Networks)注意力机制的大中华区汉语变体识别模型受融入了注意力机制的经典单个文本分类模型启发,本文构建了一个基于SENet注意力机制的大中华区汉语变体识别模型,利用SENet注意力机制来捕捉大中华区汉语变体之间的差异性特征,动态的增加重要区分性特征词汇的权重。同时在训练中过程中还融入原始词向量特征。实验结果显示,与经典的文本分类方法相比,基于SENet注意力机制的大中华区汉语变体识别模型识别效果有显著提升,对实验结果详细的可视化分析也验证了注意力模型的有效性。
【学位单位】:江西师范大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:H1;TP391.1;TP181
【部分图文】:

框架图,框架图,模型,单词


大中华区汉语变体识别研究11词。这样做的好处在于与one-hot这样的编码对比,使用词嵌入表示的单词向量往往只有几十或者几百个维度,极大的减少了计算和储存量。这种分布式的词向量表示方式依赖于单词的使用习惯,这就使得具有相似使用方式的单词具有相似的表示形式[30]。(3)Word2Vector词嵌入是现在最常用的表示方式,而最流行的词嵌入方法,就是Word2Vec。2013年,Google的TomasMikolov等人提出了一种Word2Vec的词嵌入方法[31],它是一种用于有效学习从文本语料库嵌入的独立词语的统计方法。其核心思想就是基于上下文,先用向量代表各个词,然后通过一个预测目标函数学习这些向量的参数。Word2Vec的网络主体是一种单隐层前馈神经网络,网络的输入和输出均为词向量。具体来说,Word2Vec中涉及到两种模型,一个是CBOW模型(ContinuousBag-of-WordsModel),是通过给定的上下文单词环境来预测当前词出现的概率;另一个是Skip-Gram模型(ContinuousSkip-GramModel),与CBOW正好相反,Skip-Gram是通过当前词来预测其上下文的单词。这也是深度学习流行起来之后,基于神经网络来完成的词嵌入方法。CBOW和Skip-Gram的模型框架如图2-1所示:图2-1CBOW和Skip-Gram的模型框架图2.2.4多数投票算法集成学习(Ensemblemethod)是一种“群体决策”的思想,即对某一特定问题,用多个模型来进行训练。它最初的思想很简单,就是利用一定的手段去学习并构建多个不同的分类器,然后将这些分类器用某种策略将他们结合起来得到一个更强大的分类器,来做最后的决策。一般来说,集成分类器的分类性能会比单个分

超平面


大中华区汉语变体识别研究133集成经典文本分类方法的汉语变体识别模型本章主要介绍了经典的文本分类方法,包括基于传统的机器学习方法和基于深度学习的方法,并展示了如何利用多数投票算法来融合多个文本分类模型,以构建一个新的大中华区汉语变体识别模型来提高语言识别效果。3.1支持向量机3.1.1支持向量机概述支持向量机(SupportVectorMachine,SVM)是一种二分类模型,它的基本思想是构建一个最优决策超平面,使得该平面两侧距离到该平面最近的两类样本之间的距离最大化,最终会转化成求解一个凸二次规划问题,SVM对分类问题具有较好的泛化能力[33]。对多维的样本数据集,系统会随机产生一个不断移动的超平面,来进行样本分类,直到训练样本中属于不同类别的样本点正好落在这个超平面的两侧,可能满足这个条件的超平面有很多个,而SVM就是在保证分类精度的同时,去找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类。在样本非线性可分的时候,将会引入核函数,来保证在不增加算法复杂度的情况下将完全不可分问题转化为可分或是达到近似可分的状态[34]。3.1.2支持向量机线性分类器SVM学习的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如图3-1所示,wx+b=0即为分离超平面,对于线性可分的数据集,这样的超平面有无数个,但几何间隔最大的分离超平面却是唯一的。图3-1最大分离超平面

线性可分,线性,样本,超平面


大中华区汉语变体识别研究1511111(,,)2..0,0,1,2,...,mmmiijijijiijmiiiiLwbyyxxstyim(3-7)原问题就转换为如下关于的问题:11111(,,)2..0,0,1,2,...,maxmmmiijijijiijmiiiiLwbyyxxstyim(3-8)解出的最优解i后,根据公式(3-9)可求得w,进而求得b,可以得到分类决策函数:1()()()miiiifxsignwxbsignyxxb(3-9)3.1.3支持向量机非线性分类器对于二元分类问题,如果存在一个分隔超平面能够将不同类别的数据完全的分隔开即两类数据正好完全落在超平面的两侧,则称其为线性可分。反之,如果不存在这样的超平面,则称其为线性不可分。如图3-2所示:图3-2样本的线性可分与线性不可分对输入空间线性不可分时,可以利用非线性变换将其转化成某个高维特征空间内的线性分类问题,在这个高维特征空间中学习线性SVM。在线性SVM学习的对偶问题中,目标函数和分类决策函数都只涉及到实例与实例之间的内积,因此不必再显式地指定非线性变换,只需要将内积用核函数替换即可。核函数表示的是经过一个非线性转换过的两个实例之间的内积[34]。若K(x,z)表示一个核函数,则表明存在从输入空间到特征空间的一个映射(x),对于任意输入空间中的x,z,有K(x,z)(x)(z)(3-10)
【相似文献】

相关期刊论文 前10条

1 韩玮璇;;《变体》[J];皖西学院学报;2019年06期

2 杨博;窦婧文;曹振;;变体飞行器的气动结构对控制系统的影响[J];弹道学报;2020年01期

3 王金贵,毕书峰;变体美术字及其教学[J];黑河教育;2004年04期

4 安亦男;朱小明;;形式与变体[J];装饰;2016年01期

5 王之韵;朱小明;;形式与变体[J];装饰;2016年01期

6 王潇珩;洪波;;形式与变体[J];装饰;2016年01期

7 顾黎明;;吉祥如意变体二[J];中国油画;2018年05期

8 陈战辉;谢军伟;付云;;变体技术在巡航导弹上的应用研究[J];飞航导弹;2011年08期

9 王隽;罗婷;;英语习语临时变体产生原因与变体类别浅析[J];河南广播电视大学学报;2007年02期

10 长召其,张志毅;异形词是词位的无值变体[J];语言文字应用;2003年03期


相关博士学位论文 前4条

1 杜厦;无舵面变体翼飞行器机构设计与气动分析[D];南京航空航天大学;2012年

2 李盈枝;X连锁特发性眼球震颤相关FRMD7基因新剪切变体的克隆及其在神经发育过程中相关功能的研究[D];浙江大学;2011年

3 薛建新;传名演算变体的互模拟理论,表达能力和证明系统研究[D];上海交通大学;2013年

4 殷明;变体飞行器变形与飞行的协调控制问题研究[D];南京航空航天大学;2016年


相关硕士学位论文 前10条

1 孙玉梅;大中华区汉语变体识别研究[D];江西师范大学;2020年

2 赵科红;翻译本质及其变体[D];湖南师范大学;2004年

3 张东华;变体临摹和中国花鸟画的创作[D];中国美术学院;2009年

4 朱文强;基于结构稀疏先验的变体目标识别方法研究[D];西安电子科技大学;2017年

5 朱琳;场景情绪及伴随者躯体语言对目标躯体语言识别的影响[D];南京师范大学;2018年

6 宋国庆;从使用制度探索商标变体的法律保护[D];华东政法大学;2015年

7 朱春丽;[D];郑州大学;2002年

8 宁英娟;汉语方言义项及其变体研究[D];上海师范大学;2011年

9 郭淑娟;可变体飞行器的飞行协调控制问题研究[D];南京航空航天大学;2012年

10 万茜;对两种网语变体的文体学比较研究[D];对外经济贸易大学;2004年



本文编号:2878643

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/zaizhiboshi/2878643.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户37e7b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com