基于神经网络的中文分词研究
发布时间:2021-01-22 14:21
近年来,随着中文互联网世界的不断发展和人工智能研究的不断深入,中文自然语言处理变得愈加重要。在中文自然语言处理领域中,中文分词是一项基础技术,在诸多应用中不可或缺。将中文分词视为一种基于字符的序列标注问题以便采用机器学习的方法去处理是当前较为有效的一种思路,这种思路简称为字标注法。然而传统的统计机器学习方法需要人工仔细地设计大量特征,特征设计的好坏依赖人的经验,进一步提高模型效果受到制约。深度神经网络模型近年来在诸多模式识别任务中大放异彩。从计算机视觉领域、语音识别领域到自然语言处理领域,采用基于深度神经网络的研究方法成为一种趋势。中文分词任务中同样涌现了很多出色的神经网络方法,其中比较主流的是基于可以处理长距离依赖信息的长短时记忆(Long Short-Term Memory,LSTM)网络的模型。但是,一方面,长短时记忆网络固有的序列特性使其训练时间较长,不利于神经网络模型的实际应用;另一方面,当使用包括长短时记忆网络在内的神经网络方法处理中文分词问题时,很多工作依然需要必要的特征工程来增强模型捕获局部特征的能力。有鉴于此,本文主要做了以下的工作:一是针对现有的长短时记忆网络模型训...
【文章来源】:郑州大学河南省 211工程院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
前馈神经网络结构
加权求和过程
曾经比较常见的激活函数是图 2. 3 sigmoid 函数及其导数图 Fig.2.3 Sigmoid and its derivatives tanh 函数,函数的值在 [- -1, 1]之
【参考文献】:
期刊论文
[1]中文分词十年回顾[J]. 黄昌宁,赵海. 中文信息学报. 2007(03)
[2]中文信息处理中的分词问题[J]. 黄昌宁. 语言文字应用. 1997(01)
本文编号:2993383
【文章来源】:郑州大学河南省 211工程院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
前馈神经网络结构
加权求和过程
曾经比较常见的激活函数是图 2. 3 sigmoid 函数及其导数图 Fig.2.3 Sigmoid and its derivatives tanh 函数,函数的值在 [- -1, 1]之
【参考文献】:
期刊论文
[1]中文分词十年回顾[J]. 黄昌宁,赵海. 中文信息学报. 2007(03)
[2]中文信息处理中的分词问题[J]. 黄昌宁. 语言文字应用. 1997(01)
本文编号:2993383
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2993383.html
最近更新
教材专著