基于深度学习的多标签短文本分类方法研究
发布时间:2022-01-02 09:10
网络平台的蓬勃发展使得短文本数据大量涌现,由于该类数据具有多标签、多角度的特征,用户在浏览短文本时无法快速获取目标信息,因此针对短文本进行有效的多标签分类是现在研究的热门问题之一。短文本数据具有内容短、数据量大、表述不规范等特点,这些特点导致其分类时面临噪声多、特征不密集、上下文不独立等问题。由于短文本中标签数的增长,传统的分类方法无法满足现有的需求。针对目前短文本分类方法存在的数据分布不均匀,建模矩阵特征稀疏等问题,本文做了如下贡献:(1)针对传统特征提取算法无法对稀疏的短文本特征进行有效提取的问题,本文提出了基于Word2vec模型的短文本特征提取方法。首先对短文本进行向量化表示,并对其进行两方面的处理,一方面是利用优化的Word2vec模型对向量进行降维,然后利用词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法进行加权,另一方面是直接利用TF-IDF进行向量处理。然后将这两种方法处理过的向量进行合并和特征提取,最后使用支持向量机(Support Vector Machine,SVM)进行分类。通过实验证明,该...
【文章来源】:桂林电子科技大学广西壮族自治区
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
sigmoid函数图像
图3-5分词结果
【参考文献】:
期刊论文
[1]基于word2vec和双向LSTM的情感分类深度模型[J]. 黄贤英,刘广峰,刘小洋,阳安志. 计算机应用研究. 2019(12)
[2]基于词向量的文本特征选择方法研究[J]. 陈磊,李俊. 小型微型计算机系统. 2018(05)
[3]基于递归神经网络的文本分类研究[J]. 黄磊,杜昌顺. 北京化工大学学报(自然科学版). 2017(01)
[4]基于深度学习的问题分类方法研究[J]. 李超,柴玉梅,南晓斐,高明磊. 计算机科学. 2016(12)
[5]一种基于概率的卡方特征选择方法[J]. 张辉宜,谢业名,袁志祥,孙国华. 计算机工程. 2016(08)
[6]基于标签聚类的多标签分类算法[J]. 申超波,王志海,孙艳歌. 软件. 2014(08)
[7]面向信息检索的自适应中文分词系统[J]. 曹勇刚,曹羽中,金茂忠,刘超. 软件学报. 2006(03)
博士论文
[1]面向内容安全的文本分类研究[D]. 张博锋.国防科学技术大学 2007
硕士论文
[1]基于SVM和半监督学习的短文本分类算法研究[D]. 向俊.南京信息工程大学 2017
[2]基于长短时记忆网络的多标签文本分类[D]. 熊涛.浙江大学 2017
[3]短文本分类研究[D]. 刘英涛.重庆理工大学 2016
[4]基于维基百科的短文本特征扩展及分类算法研究[D]. 秦靓靓.天津理工大学 2016
本文编号:3563905
【文章来源】:桂林电子科技大学广西壮族自治区
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
sigmoid函数图像
图3-5分词结果
【参考文献】:
期刊论文
[1]基于word2vec和双向LSTM的情感分类深度模型[J]. 黄贤英,刘广峰,刘小洋,阳安志. 计算机应用研究. 2019(12)
[2]基于词向量的文本特征选择方法研究[J]. 陈磊,李俊. 小型微型计算机系统. 2018(05)
[3]基于递归神经网络的文本分类研究[J]. 黄磊,杜昌顺. 北京化工大学学报(自然科学版). 2017(01)
[4]基于深度学习的问题分类方法研究[J]. 李超,柴玉梅,南晓斐,高明磊. 计算机科学. 2016(12)
[5]一种基于概率的卡方特征选择方法[J]. 张辉宜,谢业名,袁志祥,孙国华. 计算机工程. 2016(08)
[6]基于标签聚类的多标签分类算法[J]. 申超波,王志海,孙艳歌. 软件. 2014(08)
[7]面向信息检索的自适应中文分词系统[J]. 曹勇刚,曹羽中,金茂忠,刘超. 软件学报. 2006(03)
博士论文
[1]面向内容安全的文本分类研究[D]. 张博锋.国防科学技术大学 2007
硕士论文
[1]基于SVM和半监督学习的短文本分类算法研究[D]. 向俊.南京信息工程大学 2017
[2]基于长短时记忆网络的多标签文本分类[D]. 熊涛.浙江大学 2017
[3]短文本分类研究[D]. 刘英涛.重庆理工大学 2016
[4]基于维基百科的短文本特征扩展及分类算法研究[D]. 秦靓靓.天津理工大学 2016
本文编号:3563905
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3563905.html