基于词汇表征学习的词义演变及其评价研究
发布时间:2021-08-20 13:21
随着信息化技术蓬勃发展,对于传统纸质文献的数字化工作也逐渐展开,同时近年来社交网络和新闻媒体爆炸式增长,带来的是大量的横跨长期时间的数据,如何从这些跨时间数据中挖掘有效的信息成为了当前学术界和工业界的研究工作焦点。近年来深度学习的广泛应用和快速发展为挖掘这些跨时间数据提供了可能,特别是深度学习在文本上强大的表示学习能力,几乎被应用在基于深度学习进行自然语言处理相关的所有工作中。作为自然语言处理相关任务的基石,对于词语的表示学习(词汇表征学习)经历了从最初的简单的统计、词袋模型等传统的基于统计的表示方法到对词语的共现关系进行学习、对句子中的词语序列进行学习等基于深度学习模型的方法,已经取得了不俗的成就。但是现有的算法对于跨时间的词汇表征学习仍然存在一些问题,比如现在的一些研究更多的是将这些模型应用在不同的时间片上,然后通过对齐算法来将多个时间片上的词汇表征结果进行对齐,对于此类方法的词汇演变分析效果不仅依赖于词汇表征学习算法本身,还依赖于对齐算法的效果,而现有的对齐算法比较容易陷入过对齐的状态。本文主要研究跨时间的词汇表征学习算法在对齐上的改进,通过引入基于深度学习的相关算法结合我们提出...
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
简单的情感分类模型
西南大学硕士学位论文6词语相关的广泛研究上的意义。我们介绍了我们所提出的Tagged-SGNS模型,它通过合并不同时间段的语料库片段来扩展SGNS[60]。TSGNS具有类似SGNS的低维嵌入表示的高性能和PPMI等高维方法在不同时间段的向量空间平滑对齐的优点。为了验证TSGNS的有效性,我们在GoogleBooksN-gram语料集(105GB)、MENS数据集[61](3000个具有人类标记的相似度的单词对)和牛津词典的数据集(412个具有人类识标记语义随时间变化的单词)上进行了实验。实验结果表明,TSGNS相对于目前的最新技术具有独特的优势。图1.2本文主要研究内容(2)分布假说表明,词语的语义是是隐含在共现关系中的。目前大部分研究词语的词汇表征学习是基于语料库中句子中固定范围内的上下文词共现统计的。并且现有的研究基本上只关注中心词的上下文词语随时间的共现频率,而忽略了深层上下文关系,即对应上下文的语义也可能会随着时间的推移而发生变化,这意味着上下文词语可能会随着时间的推移而发生语义演变。我们提出了基于句子的词嵌入(SWE),它解决了以下挑战:1.句子通常有不同的长度,支持词汇表征学习时输入的词语序列长度为变长,避免了传统学习过程中需要指定上下文考虑范围的情况2.目标词通常在句子中的不同位置。受到Elmo[62]和CBOW两种方法的启发,我们提出来的词汇表征学习模型是通过训练一个学习模型来推导的,该模型使用句子中的其他单词预测目标单词。此外,我们还讨论了SWE是否能够满足免对齐的条件,本研究通过在大型语料库(即Arxiv数据集)上比较不同环境下的词汇表征学习效果,验证了所提出的解决方案的独特优势。(3)本文使用搜狗搜索引擎抓取的网页数据集进行分析。在使用三种不同的词汇表征学习算法对该汉语语料库进行训练后,使用不同的
相关研究综述92.相关研究综述深度学习技术源于对人工神经网路的研究。它是在多层感知器的基础上,使用线性或者非线性的前向连接把多层神经网络层叠在一起,来发现数据样本的特征分布。深度学习的概念由Hinton等人提出[3]。之后在2015年,Hinton、Lecun和Bengio三个深度学习领域的元老在[7]上发表综述文章,就深度学习的模型和应用领域进行了深入全面的探讨,奠定了深度学习在图像(含视频)、音频和自然语言等研究领域的地位。深度学习是一种表征学习方法,可以用来学习数据样本的特征分布。图2.1展示了一个多层神经网络的模型。模型每一层由多个神经元构成,每个神经元表示一个特征值。同一层的所有特征值构成特征向量,用来表示对某个事物的整体特征描述。同层之间神经元没有联系,即同层之间的特征值之间趋于正交(特征向量所在希尔伯特空间中每一维和其它维都是正交的)。层与层之间一般采用全连接方式,即下一层中每个神经元都是上一层中所有神经元的权重之和。神经网络输出的特征向量可以看作是神经网络对事物进行表征学习的结果,这种结果是对人为定义特征(输入)进行多层映射计算,通过神经网络自动学习到的抽象特征(输出)。图2.1多层神经网络模型对于人为定义的特征(也就是输入),具有很多种表现形式,对于采用深度学习进行相关表征学习比较成熟的领域-图像领域而言,通常为以图像的每一个像素对应的数据作为基本单元,将整个图片表示为一个像素数据组成的矩阵,作为神经网络的输入;而在自然语言处理领域,根据不同的维度,我们可以将文本以字母(笔画)、单词等方式来表示,然后输入到神经网络中。而对于事物的表征学习,传统的方法通常通过手动设置抽取规则,或者计算规则对根据输入的数据进行处理,进而形成对应事物的表?
本文编号:3353573
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
简单的情感分类模型
西南大学硕士学位论文6词语相关的广泛研究上的意义。我们介绍了我们所提出的Tagged-SGNS模型,它通过合并不同时间段的语料库片段来扩展SGNS[60]。TSGNS具有类似SGNS的低维嵌入表示的高性能和PPMI等高维方法在不同时间段的向量空间平滑对齐的优点。为了验证TSGNS的有效性,我们在GoogleBooksN-gram语料集(105GB)、MENS数据集[61](3000个具有人类标记的相似度的单词对)和牛津词典的数据集(412个具有人类识标记语义随时间变化的单词)上进行了实验。实验结果表明,TSGNS相对于目前的最新技术具有独特的优势。图1.2本文主要研究内容(2)分布假说表明,词语的语义是是隐含在共现关系中的。目前大部分研究词语的词汇表征学习是基于语料库中句子中固定范围内的上下文词共现统计的。并且现有的研究基本上只关注中心词的上下文词语随时间的共现频率,而忽略了深层上下文关系,即对应上下文的语义也可能会随着时间的推移而发生变化,这意味着上下文词语可能会随着时间的推移而发生语义演变。我们提出了基于句子的词嵌入(SWE),它解决了以下挑战:1.句子通常有不同的长度,支持词汇表征学习时输入的词语序列长度为变长,避免了传统学习过程中需要指定上下文考虑范围的情况2.目标词通常在句子中的不同位置。受到Elmo[62]和CBOW两种方法的启发,我们提出来的词汇表征学习模型是通过训练一个学习模型来推导的,该模型使用句子中的其他单词预测目标单词。此外,我们还讨论了SWE是否能够满足免对齐的条件,本研究通过在大型语料库(即Arxiv数据集)上比较不同环境下的词汇表征学习效果,验证了所提出的解决方案的独特优势。(3)本文使用搜狗搜索引擎抓取的网页数据集进行分析。在使用三种不同的词汇表征学习算法对该汉语语料库进行训练后,使用不同的
相关研究综述92.相关研究综述深度学习技术源于对人工神经网路的研究。它是在多层感知器的基础上,使用线性或者非线性的前向连接把多层神经网络层叠在一起,来发现数据样本的特征分布。深度学习的概念由Hinton等人提出[3]。之后在2015年,Hinton、Lecun和Bengio三个深度学习领域的元老在[7]上发表综述文章,就深度学习的模型和应用领域进行了深入全面的探讨,奠定了深度学习在图像(含视频)、音频和自然语言等研究领域的地位。深度学习是一种表征学习方法,可以用来学习数据样本的特征分布。图2.1展示了一个多层神经网络的模型。模型每一层由多个神经元构成,每个神经元表示一个特征值。同一层的所有特征值构成特征向量,用来表示对某个事物的整体特征描述。同层之间神经元没有联系,即同层之间的特征值之间趋于正交(特征向量所在希尔伯特空间中每一维和其它维都是正交的)。层与层之间一般采用全连接方式,即下一层中每个神经元都是上一层中所有神经元的权重之和。神经网络输出的特征向量可以看作是神经网络对事物进行表征学习的结果,这种结果是对人为定义特征(输入)进行多层映射计算,通过神经网络自动学习到的抽象特征(输出)。图2.1多层神经网络模型对于人为定义的特征(也就是输入),具有很多种表现形式,对于采用深度学习进行相关表征学习比较成熟的领域-图像领域而言,通常为以图像的每一个像素对应的数据作为基本单元,将整个图片表示为一个像素数据组成的矩阵,作为神经网络的输入;而在自然语言处理领域,根据不同的维度,我们可以将文本以字母(笔画)、单词等方式来表示,然后输入到神经网络中。而对于事物的表征学习,传统的方法通常通过手动设置抽取规则,或者计算规则对根据输入的数据进行处理,进而形成对应事物的表?
本文编号:3353573
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3353573.html