基于时序卷积网络的中文命名实体识别研究
发布时间:2021-08-13 08:49
随着信息时代的来临,如何从海量的自然语言数据中获取到有用的信息是当今社会一个非常重要的问题。自然语言数据不同于其他类型的数据,它包含着人类语言的特性,需要借助一些专门的技术来处理。命名实体识别是自然语言处理的一项基本任务,它通过提取句子中含有特殊意义的关键信息来解决信息过载的问题,这些关键信息也称为命名实体。命名实体识别一直是国内外专家学者的研究热点之一。中文语言不同于其他语言,对于中文语言的处理需要考虑中文语言的相应特性。当前大多数中文命名实体识别模型按照对语言处理基本单元的选择大致可以划分为两类:基于字符的模型和基于词的模型。基于字符的模型直接将中文句子切分为一个字符序列,然后在这个字符序列上提取命名实体。基于词的模型需要先通过一个分词模型将中文句子切分为一个词序列,然后在这个词序列上提取命名实体。但是,基于字符的模型无法利用词的丰富的内在信息来完成命名实体的提取,基于词的模型无法消除分词模型按照不同的分词标准切分的词序列中词的歧义。针对以上两类模型存在的问题,现有研究通过整合一个预定义的词典来自动适配中文句子中的词,并将适配到的词信息反馈回命名实体识别模型,通过这种方式可以使命名...
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
线性链条件随机场模型
第2章相关理论与技术11卷积网络(FCN)作为主要结构,它是一种隐藏层的长度与输入层、输出层一样的网络结构。为了实现第二个原则,GTCN使用了因果卷积技术,因果卷积在t时刻的输出只与在t时刻之前的元素有关联,与t时刻之后的元素无关联。一维全卷积网络构建的序列模型在需要获取更大范围的输入数据的历史信息时,可以通过以下两种方式:增加网络的层数和设置更大的过滤器。这两种方式计算量过大,结构复杂,一开始并不能很好的获取大范围的数据信息。一个简单的因果卷积只能看到在一个卷积网络层上一定范围内的序列数据,这限制了因果卷积处理序列数据的能力。膨胀卷积可以解决这一问题,它跳跃式的收集序列中不同元素的信息。一般而言,对于一个一维输入序列X,X∈R和一个过滤器f:{0,…,k1}→R,对于序列上的元素s而言,膨胀卷积操作F被描述为公式(2-1)。如公式(2-1)所示,d表示膨胀因子,k表示过滤器的大小,sdi指示从前至后处理输入序列数据的方向,即过去的时间依赖性。当d等于1时,一维膨胀卷积转变为传统的卷积操作。使用膨胀卷积可以使网络看到更多在序列远处的信息,扩大了序列信息提取的范围。F(s)=∑()(2-1)图2-2GTCN网络结构GTDN的网络结构如图2-2所示,输入一条序列结构的数据x,…,x,对这条序列结构数据执行一维膨胀卷积等相关操作之后,得到对应的输出y,…,y,中间的隐藏层使用膨胀卷积,d是膨胀卷积因子,d随着层数的增加而增加。通用时序卷积网络采用从左至右的卷积滑动策略,每次只向右滑动一步,在左边添加zero-padding块来保证对齐。
西南大学硕士学位论文12图2-3卷积块操作GTCN使用残差连接方法连接神经网络相邻的层。GTCN需要处理序列结构的数据,对序列结构数据的每一项数据元素在执行一维卷积操作之后再执行残差连接操作。一个残差连接操作由两部分元素组成:原始输入x与一系列转换F(x)。残差连接操作如公式(2-2)所示。o=Activation(x+F(x))(2-2)如公式(2-2)所示,Activation是激活函数,o是残差操作的结果。F(x)是一系列转换操作的集合,如图2-3所示,一个卷积块操作内部所包含的转换依次为膨胀卷积、权重归一化、ReLU激活函数、抑制过拟合(Dropout)操作。在经过F(x)操作之后,将初始输入x与F(x)直接相加则得到一次卷积块操作的输出结果。2.4注意力机制注意力机制借鉴了人类的视觉注意力机制,视觉注意力机制是人类大脑特有的处理视觉信号的机制。人眼在识别成像过程中,首先快速扫描全局环境,获得需要重点关注的目标区域,即注意力焦点,然后对这一注意力焦点区域进行更加细致的扫描,以获取该区域更多的细节信息,忽略掉其它无关信息。这一机制是人类进化出来的一种用于快速筛选出高价值信息的方法,极大的提高了人类处理视觉信息的效率和准确性。注意力机制(Attention)最早出现在对人类视觉的研究工作中。2014年,Volodymy提出了一个加入了注意力机制的RNN模型用于图像分类,取得了不错的分类效果[28]。Kelvin提出了一个基于注意力机制的自动识别图像内容的图像识别模型[29]。在自然语言处理任务中,机器翻译任务是最早引入注意力机制的研究领域。Bahdanau最早提出了一个用于提升神经机器翻译模型性能的注意力模型[30]。
【参考文献】:
期刊论文
[1]基于CRF和规则相结合的地理命名实体识别方法[J]. 何炎祥,罗楚威,胡彬尧. 计算机应用与软件. 2015(01)
本文编号:3340123
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
线性链条件随机场模型
第2章相关理论与技术11卷积网络(FCN)作为主要结构,它是一种隐藏层的长度与输入层、输出层一样的网络结构。为了实现第二个原则,GTCN使用了因果卷积技术,因果卷积在t时刻的输出只与在t时刻之前的元素有关联,与t时刻之后的元素无关联。一维全卷积网络构建的序列模型在需要获取更大范围的输入数据的历史信息时,可以通过以下两种方式:增加网络的层数和设置更大的过滤器。这两种方式计算量过大,结构复杂,一开始并不能很好的获取大范围的数据信息。一个简单的因果卷积只能看到在一个卷积网络层上一定范围内的序列数据,这限制了因果卷积处理序列数据的能力。膨胀卷积可以解决这一问题,它跳跃式的收集序列中不同元素的信息。一般而言,对于一个一维输入序列X,X∈R和一个过滤器f:{0,…,k1}→R,对于序列上的元素s而言,膨胀卷积操作F被描述为公式(2-1)。如公式(2-1)所示,d表示膨胀因子,k表示过滤器的大小,sdi指示从前至后处理输入序列数据的方向,即过去的时间依赖性。当d等于1时,一维膨胀卷积转变为传统的卷积操作。使用膨胀卷积可以使网络看到更多在序列远处的信息,扩大了序列信息提取的范围。F(s)=∑()(2-1)图2-2GTCN网络结构GTDN的网络结构如图2-2所示,输入一条序列结构的数据x,…,x,对这条序列结构数据执行一维膨胀卷积等相关操作之后,得到对应的输出y,…,y,中间的隐藏层使用膨胀卷积,d是膨胀卷积因子,d随着层数的增加而增加。通用时序卷积网络采用从左至右的卷积滑动策略,每次只向右滑动一步,在左边添加zero-padding块来保证对齐。
西南大学硕士学位论文12图2-3卷积块操作GTCN使用残差连接方法连接神经网络相邻的层。GTCN需要处理序列结构的数据,对序列结构数据的每一项数据元素在执行一维卷积操作之后再执行残差连接操作。一个残差连接操作由两部分元素组成:原始输入x与一系列转换F(x)。残差连接操作如公式(2-2)所示。o=Activation(x+F(x))(2-2)如公式(2-2)所示,Activation是激活函数,o是残差操作的结果。F(x)是一系列转换操作的集合,如图2-3所示,一个卷积块操作内部所包含的转换依次为膨胀卷积、权重归一化、ReLU激活函数、抑制过拟合(Dropout)操作。在经过F(x)操作之后,将初始输入x与F(x)直接相加则得到一次卷积块操作的输出结果。2.4注意力机制注意力机制借鉴了人类的视觉注意力机制,视觉注意力机制是人类大脑特有的处理视觉信号的机制。人眼在识别成像过程中,首先快速扫描全局环境,获得需要重点关注的目标区域,即注意力焦点,然后对这一注意力焦点区域进行更加细致的扫描,以获取该区域更多的细节信息,忽略掉其它无关信息。这一机制是人类进化出来的一种用于快速筛选出高价值信息的方法,极大的提高了人类处理视觉信息的效率和准确性。注意力机制(Attention)最早出现在对人类视觉的研究工作中。2014年,Volodymy提出了一个加入了注意力机制的RNN模型用于图像分类,取得了不错的分类效果[28]。Kelvin提出了一个基于注意力机制的自动识别图像内容的图像识别模型[29]。在自然语言处理任务中,机器翻译任务是最早引入注意力机制的研究领域。Bahdanau最早提出了一个用于提升神经机器翻译模型性能的注意力模型[30]。
【参考文献】:
期刊论文
[1]基于CRF和规则相结合的地理命名实体识别方法[J]. 何炎祥,罗楚威,胡彬尧. 计算机应用与软件. 2015(01)
本文编号:3340123
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3340123.html