基于LSTM的文本上下文依赖特征的表示方法研究
发布时间:2021-08-27 21:46
为了能够有效地从非结构性的文本数据中挖掘知识,研究将自然语言形式化为计算机输入信号的表示方法是文本意见挖掘任务的重点。基于深度学习的表示方法具有很强的特征学习能力,由该方法生成的文本表示具有连续、稠密和低维度的特征。在深度学习中,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种特殊的循环神经网络模型(Recurrent neural network,RNN)模型。它不仅能够对具有时序特征的输入信号进行建模,还能够避免RNN在文本建模过程中发生梯度消散(或梯度爆炸)的问题。基于标准LSTM的表示方法对所有的输入特征一视同仁,并不能明显地表现出不同特征对特定研究任务的贡献程度,更为重要的是,该方法更侧重于学习文本上下文语义信息,而对上下文结构信息并没有很好的进行学习。本文所做的工作如下:1)在对词语间上下文依赖特征信息进行建模的过程中,由于基于标准LSTM的文本表示方法未利用向量化的词性信息去强化文本上下文依赖信息,所以本文提出了一个基于注意力机制的双向LSTM的文本表示方法。本课题在自采集数据集和来自NLPCC&2014的开源数据集上进行实验,用以...
【文章来源】:河北科技大学河北省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图3-1对称式基于注意力机制的双向LSTM模型结构??往更具有重要的价值
所以把数据集1按篇幅长度大小细分为句子层面和博文层面的数据集。评测数据分??布如表3-2所示。另外,互联网用户习惯于发短文来表达自己对产品,事件等的情感。??图3-3是对评测数据的文本长度的统计图,图中的横轴表示文本的长度,纵坐标表示??样本频数。这些数据集的长度主要分布在一个明显的范围内,例如句子层面的数据长??度范围主要在100以下,而博文层面的数据长度范围集中在120以下,其中例外情??况非常少。虽然本模型的内部处理长度变量输入,但会选择文本的最大长度来限制模??型的大小。??表3-2评测数据分布图??句子层面的数据集1?博文层面的数据集1?数据集2??数据集???训练集?测试集?训练集?测试集?训练集?测试集??高兴(happiness)?2805?641?1460?441?3301?1415??厌恶(disgust)?3130?679?1392?389?825?354??愤怒(anger)?1899?244?669?128?832?357??悲伤(sadness)?2478?302?1174?189?1333?572??恐惧(fear)?299?67?148?46?438?188??喜欢(like)?4259?1630?2204?1024?—?—??惊讶(surprise)?820?259?362?162?—?——??3.3.2评价指标??对于分类任务而言,本文使用准确率(Accuracy)来评估这些分类方法的整体分??类性能。准确度越高
F1值对比在句子层面数据集1
【参考文献】:
期刊论文
[1]网络意见挖掘、摘要与检索研究综述[J]. 侯锋,王传廷,李国辉. 计算机科学. 2009(07)
本文编号:3367149
【文章来源】:河北科技大学河北省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图3-1对称式基于注意力机制的双向LSTM模型结构??往更具有重要的价值
所以把数据集1按篇幅长度大小细分为句子层面和博文层面的数据集。评测数据分??布如表3-2所示。另外,互联网用户习惯于发短文来表达自己对产品,事件等的情感。??图3-3是对评测数据的文本长度的统计图,图中的横轴表示文本的长度,纵坐标表示??样本频数。这些数据集的长度主要分布在一个明显的范围内,例如句子层面的数据长??度范围主要在100以下,而博文层面的数据长度范围集中在120以下,其中例外情??况非常少。虽然本模型的内部处理长度变量输入,但会选择文本的最大长度来限制模??型的大小。??表3-2评测数据分布图??句子层面的数据集1?博文层面的数据集1?数据集2??数据集???训练集?测试集?训练集?测试集?训练集?测试集??高兴(happiness)?2805?641?1460?441?3301?1415??厌恶(disgust)?3130?679?1392?389?825?354??愤怒(anger)?1899?244?669?128?832?357??悲伤(sadness)?2478?302?1174?189?1333?572??恐惧(fear)?299?67?148?46?438?188??喜欢(like)?4259?1630?2204?1024?—?—??惊讶(surprise)?820?259?362?162?—?——??3.3.2评价指标??对于分类任务而言,本文使用准确率(Accuracy)来评估这些分类方法的整体分??类性能。准确度越高
F1值对比在句子层面数据集1
【参考文献】:
期刊论文
[1]网络意见挖掘、摘要与检索研究综述[J]. 侯锋,王传廷,李国辉. 计算机科学. 2009(07)
本文编号:3367149
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3367149.html
最近更新
教材专著