基于特征降维和语义拓展的短文本分类方法研究
发布时间:2021-01-09 00:52
随着网络时代的发展尤其是在在线社交的推动下,短文本数据逐渐成为一种主流的文本形式。与传统的文本形式相比,短文本的文本长度较短而数据规模大,因而高维稀疏问题是在进行短文本数据挖掘时首先要面临的挑战。其次短文本包含的语义信息较少且信息存在歧义等问题,导致传统的文本挖掘方法通常难以高效、准确地完成分类任务。因此,如何进一步压缩文本的特征维度,拓展文本原有语义信息,提高短文本表示与分类性能成为短文本挖掘领域的研究热点。本文针对短文本的高维稀疏问题开展分类方法研究,其主要工作如下:(1)针对短文本数据的高维稀疏问题,提出一种基于标记哈希特征降维的短文本分类方法。该方法首先对待处理的短文本进行预处理,采用改进的jieba-fast多线程分词来划分词组,同时去除停用词等提高文本表示性能;其次,为降低海量短文本的高维问题,使用标记的哈希映射方法将高维短文本映射至固定维度的向量空间中,以稀疏矩阵的形式存放文本内容,并对可能产生歧义的文本加以区分。最后,采用随机森林作为分类模型进行预测。实验结果表明:所提方法在短文本分类准确度上表现优异,同时在硬件消耗和模型准确度上取得了良好的平衡。(2)针对短文本语义信...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
MCRM模型结构
第二章相关工作概述11为原有文本内容的补充,在一定程度上缓解了短文本数据的稀疏性。但这些方法仍然忽略了短文本的语序和短语问题,有些方法也同样十分依赖于外部知识库与数据集的相关性,因而在此基础上进行的特征拓展有很大的局限。同时,短文本在实际应用中的字数分布并不规则,很多主题模型非常依赖数据的均值等统计信息,当数据分布不理想时,很难取得较好的分类效果。2.4基于文本分布式表示深度学习短文本分类方法深度学习作为近年来非常热门的处理手段广泛应用在图像、语音等领域并取得了很大的成果,其中一个尤为关键的原因是无论是图像数据还是音频数据,这些原始的数据形式均为连续和稠密的,并且很容易有局部相关性。在传统的文本表示方法中,高维稀疏问题是长期以来的挑战。因为要将深度学习应用到短文本分类上首当其冲需要解决的就是文本表示问题。因此有研究者们提出通过文本的分布式表示将每个词训练成自定义维度的连续、稠密的向量[33]。这样的文本向量表示相比词袋模型的one-hot编码方式有更好的特征表达能力。Mikolov等提出了Word2Vec模型[34]来训练词向量。该方法使用了前馈神经网络进行训练,并提出了ContinuousBag-of-Words(CBOW)和ContinuousSkip-Gram(Skip-Gram)两种模型训练方法,损失层有层次Softmax(HierarchicalSoftmax)和负采样(NegativeSampling)两种。图2.2CBOW和Skip-Gram模型结构Figure2.2CBOW&Skip-GramModelStructure对于CBOW模型而言,是去掉了一个中间词的上下文,来预测中间的词,与NNLM类似,但这种预测是双向进行的,同时去掉了非线性隐层,也就意味着预测中间词的过程中也利用了前后词语的信息。Skip-Gram则相反,通过中间词来输
K个词属于s个样本;1≤s≤m。利用所述K个词所对应的词频第t次计算所述s个样本所对应的s个类别的基尼系数。并选取基尼指数最小值所对应的样本的分词结果中属于K个词的词频作为第t次划分CART决策树的结点,从而第t棵CART决策树。将t+1赋值给t,并判断maxt≥t并是否成立,若成立,则表示得到maxt棵CART决策树,并集成为随机森林;否则,返回上层。最后将新的极短文本输入所述随机森林中,得到maxt个分类结果,并将maxt个分类结果中出现次数最多的类别作为新的极短文本所属分类。图3.2为所提CSTF短文本分类框架图。图3.2CSTF算法框架图Fig3.2FrameworkoftheCSTF3.2.2基于词袋模型的标记哈希特征降维模型HashingVectorizer是一种文本映射表示方法,可以在提取特征时减小特征尺寸并灵活地适应数据集的大小,特别是对于具有非常高的尺寸和稀疏特征的短文本。哈希向量化可以将文本的高维特征映射到具有固定维数的向量空间中。Langford等提出了HashTrick[49],这是一种单向哈希方法。此方法将单词转换为不带词汇表的整数。哈希技巧生成了一个矢量化哈希表,并将特征的词频统计信息添加到相应的哈希表位置[50]。因此,映射到该表中的数据的特征维比原始数据小得多。当原始数据集的维数较大时,可以通过此哈希映射方法将其固定。哈希映射后,有两个原始特征可能会映射到哈希表的同一位置,这会导致字频累加和特征值值变大的问题。为了解决这个问题,我们使用了改进的HashTrick方案,称为标记的哈希映射(SignedHashTrick)[6]。增加了标记的函数约束后,哈希函数的计算结果仍是无偏估计,不会导致某些散列位置的值太大。在改进的方法中,参数n_features的设置决定了映射后的特征尺寸,这直接关系到实际的内存消耗。
本文编号:2965645
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
MCRM模型结构
第二章相关工作概述11为原有文本内容的补充,在一定程度上缓解了短文本数据的稀疏性。但这些方法仍然忽略了短文本的语序和短语问题,有些方法也同样十分依赖于外部知识库与数据集的相关性,因而在此基础上进行的特征拓展有很大的局限。同时,短文本在实际应用中的字数分布并不规则,很多主题模型非常依赖数据的均值等统计信息,当数据分布不理想时,很难取得较好的分类效果。2.4基于文本分布式表示深度学习短文本分类方法深度学习作为近年来非常热门的处理手段广泛应用在图像、语音等领域并取得了很大的成果,其中一个尤为关键的原因是无论是图像数据还是音频数据,这些原始的数据形式均为连续和稠密的,并且很容易有局部相关性。在传统的文本表示方法中,高维稀疏问题是长期以来的挑战。因为要将深度学习应用到短文本分类上首当其冲需要解决的就是文本表示问题。因此有研究者们提出通过文本的分布式表示将每个词训练成自定义维度的连续、稠密的向量[33]。这样的文本向量表示相比词袋模型的one-hot编码方式有更好的特征表达能力。Mikolov等提出了Word2Vec模型[34]来训练词向量。该方法使用了前馈神经网络进行训练,并提出了ContinuousBag-of-Words(CBOW)和ContinuousSkip-Gram(Skip-Gram)两种模型训练方法,损失层有层次Softmax(HierarchicalSoftmax)和负采样(NegativeSampling)两种。图2.2CBOW和Skip-Gram模型结构Figure2.2CBOW&Skip-GramModelStructure对于CBOW模型而言,是去掉了一个中间词的上下文,来预测中间的词,与NNLM类似,但这种预测是双向进行的,同时去掉了非线性隐层,也就意味着预测中间词的过程中也利用了前后词语的信息。Skip-Gram则相反,通过中间词来输
K个词属于s个样本;1≤s≤m。利用所述K个词所对应的词频第t次计算所述s个样本所对应的s个类别的基尼系数。并选取基尼指数最小值所对应的样本的分词结果中属于K个词的词频作为第t次划分CART决策树的结点,从而第t棵CART决策树。将t+1赋值给t,并判断maxt≥t并是否成立,若成立,则表示得到maxt棵CART决策树,并集成为随机森林;否则,返回上层。最后将新的极短文本输入所述随机森林中,得到maxt个分类结果,并将maxt个分类结果中出现次数最多的类别作为新的极短文本所属分类。图3.2为所提CSTF短文本分类框架图。图3.2CSTF算法框架图Fig3.2FrameworkoftheCSTF3.2.2基于词袋模型的标记哈希特征降维模型HashingVectorizer是一种文本映射表示方法,可以在提取特征时减小特征尺寸并灵活地适应数据集的大小,特别是对于具有非常高的尺寸和稀疏特征的短文本。哈希向量化可以将文本的高维特征映射到具有固定维数的向量空间中。Langford等提出了HashTrick[49],这是一种单向哈希方法。此方法将单词转换为不带词汇表的整数。哈希技巧生成了一个矢量化哈希表,并将特征的词频统计信息添加到相应的哈希表位置[50]。因此,映射到该表中的数据的特征维比原始数据小得多。当原始数据集的维数较大时,可以通过此哈希映射方法将其固定。哈希映射后,有两个原始特征可能会映射到哈希表的同一位置,这会导致字频累加和特征值值变大的问题。为了解决这个问题,我们使用了改进的HashTrick方案,称为标记的哈希映射(SignedHashTrick)[6]。增加了标记的函数约束后,哈希函数的计算结果仍是无偏估计,不会导致某些散列位置的值太大。在改进的方法中,参数n_features的设置决定了映射后的特征尺寸,这直接关系到实际的内存消耗。
本文编号:2965645
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2965645.html
最近更新
教材专著