基于深度学习的社交媒体短文本分类研究
发布时间:2022-02-13 09:57
随着社交网络上活跃人群的增加,以及电子传媒对传统纸媒传播领域的占据,造成了社会人群习惯于通过较短篇幅的网站新闻获取时讯,网络信息变得细碎庞大。在社会急剧膨胀的信息量面前,由于高速的社会节奏,人们迫切需要精准地进行信息定位。另外,在一些面临挑战的社会时期,越快地定位信息方向类别,越能够更快地接近现场,对避免灾难、获得及时救助、实行援助等做出争分夺秒的反应,提供以科技为支撑的解决办法。此时在海量涌入的文字信息中,高效梳理出符合需求的求助、预警、紧急信息就成了重要的需求。在基于传统算法的分本分类中,多是以统计的视角通过主题词频作为分类依据,这种方式存在许多难以忽视的弊端:词向量表示造成在后续处理中的向量空间维度爆炸;传统机器学习方式需要人工对文本特征进行手动处理与标签标注,并且这种标注的准确性无法保证;面对不均衡样本无法通过数据切分保证数据平衡;划分过程时间空间成本过高,在以迅速更新为特征的社交媒体文本的处理中损失了时效性。本文选择新闻文本作为实验数据,将统计、词向量主题模型、机器学习、深度学习的神经网络运用于短文本分类中,旨在增强各类算法对文本处理的可扩展性,提升文本分类时的特征提取利用效...
【文章来源】:华北水利水电大学河南省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
文本分类流程
2自然语言处理概述9图2-1LDA模型结构Fig.2-1StructureofLDAmodel模型下LDA的生成方式有一定的流程,首先生成主题分布时利用了Dirichlet分布,数学原理来源于二项分布:(+)=∑()=0(21)二项分布扩展到多项分布时候的概率分布公式为:(1,2,...;,1,2,...,)=!1!...!11…(22)当把二项分布延伸到共轭分布时的情况下形成β分布:(;,)=1(,)1(1)1(23)Dirichlet分布即为高纬度的β分布:(|)={1()∏1=1,∈[0,1]0,其他.(24)其中,()=∏()=1(∑=1),参数的取值范围为1,2,…,≥0,∑=1=1,且1,2,…,>0.而LDA与简单的Dirichlet多项式聚类模型并不完全一样。在经典的由两层组成的聚类模型中,运用一次Dirichlet为一个语料库进行抽样,运用一个多项式聚类方式为语
2自然语言处理概述112.2.1卷积神经网络分类算法卷积神经网络作为包含多层结构的深度神经网络,具有局部连接的特点使得在文本分类中得以考虑到分词的上下文结构与顺序,而且其权值全局共享的内部结构能够从短文本中发现更多的相对关系。基本构成如下。图2-2三层神经网络结构Fig.2-2Athree-layerneuralnetworkstructure卷积层主要类中得以考虑到分词的上下文结构与顺序,而且其权值全局共享的内部结构能够从短文本中一层接一层地接洽前一层传递来的特征讯息,利用一个特征核或者多个特征核并用进行卷积计算输出,卷积的结果输出可以合并为一个或者并行多个输出。卷积核∈,其中,为该窗口的高,为词向量维度,当分词每次通过这样一个窗口时就被转化为对照的一个特征值,若这个特征值设为,则:=(:++)(28)其中,:+代表单词序列从到+,每一个单词被其表示,作为权重,偏置项设为,卷积使用的logistic函数:()=11+(29)经过运算得到卷积层输出的特征图,来到池化层完成采样操作。池化层将特征图划分为等长等宽的小区域,通过滑动窗口进行扫描,在分类中选择最大池化操作得到最具
【参考文献】:
期刊论文
[1]基于深度学习的主题模型研究[J]. 黄佳佳,李鹏伟,彭敏,谢倩倩,徐超. 计算机学报. 2020(05)
[2]基于集对分析和GA-BP神经网络的地下水埋深预测研究[J]. 陈笑,胡宏祥,戚王月,周婷,夏萍. 华北水利水电大学学报(自然科学版). 2019(04)
[3]水资源承载力评价的Logistic集对分析模型及其应用[J]. 刘童,杨晓华,宋帆. 华北水利水电大学学报(自然科学版). 2019(01)
[4]基于GRU-Attention的中文文本分类[J]. 孙明敏. 现代信息科技. 2019(03)
[5]基于机器学习的灾难分类算法研究[J]. 孙晨,刘子航. 科技创新导报. 2018(27)
[6]基于卷积神经网络和KNN的短文本分类算法研究[J]. 殷亚博,杨文忠,杨慧婷,许超英. 计算机工程. 2018(07)
[7]基于卷积神经网络的互联网短文本分类方法[J]. 郭东亮,刘小明,郑秋生. 计算机与现代化. 2017(04)
[8]基于Word2vec的微博短文本分类研究[J]. 张谦,高章敏,刘嘉勇. 信息网络安全. 2017(01)
[9]词向量与LDA相融合的短文本分类方法[J]. 张群,王红军,王伦文. 现代图书情报技术. 2016(12)
[10]短文本理解研究[J]. 王仲远,程健鹏,王海勋,文继荣. 计算机研究与发展. 2016(02)
博士论文
[1]基于特征选择的文本分类方法研究[D]. 胡小娟.吉林大学 2018
[2]基于深度学习的短文本分析与计算方法研究[D]. 李岩.北京科技大学 2016
[3]基于深度神经网络的文本表示及其应用[D]. 户保田.哈尔滨工业大学 2016
[4]短文本信息抽取若干技术研究[D]. 郑立洲.中国科学技术大学 2016
[5]基于深度学习的文本向量化研究与应用[D]. 于政.华东师范大学 2016
[6]短文本相似度计算在用户交互式问答系统中的应用[D]. 宋万鹏.中国科学技术大学 2010
[7]短文本语言计算的关键技术研究[D]. 龚才春.中国科学院研究生院(计算技术研究所) 2008
硕士论文
[1]基于Attention-Based C-GRU模型的文本分类研究[D]. 杨东.北京交通大学 2018
[2]基于深度学习的短文本分类及信息抽取研究[D]. 李超.郑州大学 2017
[3]基于长短时记忆网络的多标签文本分类[D]. 熊涛.浙江大学 2017
[4]基于卷积神经网络的短文本分类方法研究[D]. 蔡慧苹.西南大学 2016
[5]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
[6]基于深度学习的短文本语义相似度计算[D]. 陈晓阳.北京理工大学 2015
[7]基于LDA多模型中文短文本主题分类体系构建与分类[D]. 郭剑飞.哈尔滨工业大学 2014
[8]搜索引擎中网络爬虫及结果聚类的研究与实现[D]. 梁萍.中国科学技术大学 2011
[9]基于短文本的分类算法研究[D]. 徐易.上海交通大学 2010
[10]互联网短文本信息分类关键技术研究[D]. 柴春梅.上海交通大学 2009
本文编号:3622984
【文章来源】:华北水利水电大学河南省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
文本分类流程
2自然语言处理概述9图2-1LDA模型结构Fig.2-1StructureofLDAmodel模型下LDA的生成方式有一定的流程,首先生成主题分布时利用了Dirichlet分布,数学原理来源于二项分布:(+)=∑()=0(21)二项分布扩展到多项分布时候的概率分布公式为:(1,2,...;,1,2,...,)=!1!...!11…(22)当把二项分布延伸到共轭分布时的情况下形成β分布:(;,)=1(,)1(1)1(23)Dirichlet分布即为高纬度的β分布:(|)={1()∏1=1,∈[0,1]0,其他.(24)其中,()=∏()=1(∑=1),参数的取值范围为1,2,…,≥0,∑=1=1,且1,2,…,>0.而LDA与简单的Dirichlet多项式聚类模型并不完全一样。在经典的由两层组成的聚类模型中,运用一次Dirichlet为一个语料库进行抽样,运用一个多项式聚类方式为语
2自然语言处理概述112.2.1卷积神经网络分类算法卷积神经网络作为包含多层结构的深度神经网络,具有局部连接的特点使得在文本分类中得以考虑到分词的上下文结构与顺序,而且其权值全局共享的内部结构能够从短文本中发现更多的相对关系。基本构成如下。图2-2三层神经网络结构Fig.2-2Athree-layerneuralnetworkstructure卷积层主要类中得以考虑到分词的上下文结构与顺序,而且其权值全局共享的内部结构能够从短文本中一层接一层地接洽前一层传递来的特征讯息,利用一个特征核或者多个特征核并用进行卷积计算输出,卷积的结果输出可以合并为一个或者并行多个输出。卷积核∈,其中,为该窗口的高,为词向量维度,当分词每次通过这样一个窗口时就被转化为对照的一个特征值,若这个特征值设为,则:=(:++)(28)其中,:+代表单词序列从到+,每一个单词被其表示,作为权重,偏置项设为,卷积使用的logistic函数:()=11+(29)经过运算得到卷积层输出的特征图,来到池化层完成采样操作。池化层将特征图划分为等长等宽的小区域,通过滑动窗口进行扫描,在分类中选择最大池化操作得到最具
【参考文献】:
期刊论文
[1]基于深度学习的主题模型研究[J]. 黄佳佳,李鹏伟,彭敏,谢倩倩,徐超. 计算机学报. 2020(05)
[2]基于集对分析和GA-BP神经网络的地下水埋深预测研究[J]. 陈笑,胡宏祥,戚王月,周婷,夏萍. 华北水利水电大学学报(自然科学版). 2019(04)
[3]水资源承载力评价的Logistic集对分析模型及其应用[J]. 刘童,杨晓华,宋帆. 华北水利水电大学学报(自然科学版). 2019(01)
[4]基于GRU-Attention的中文文本分类[J]. 孙明敏. 现代信息科技. 2019(03)
[5]基于机器学习的灾难分类算法研究[J]. 孙晨,刘子航. 科技创新导报. 2018(27)
[6]基于卷积神经网络和KNN的短文本分类算法研究[J]. 殷亚博,杨文忠,杨慧婷,许超英. 计算机工程. 2018(07)
[7]基于卷积神经网络的互联网短文本分类方法[J]. 郭东亮,刘小明,郑秋生. 计算机与现代化. 2017(04)
[8]基于Word2vec的微博短文本分类研究[J]. 张谦,高章敏,刘嘉勇. 信息网络安全. 2017(01)
[9]词向量与LDA相融合的短文本分类方法[J]. 张群,王红军,王伦文. 现代图书情报技术. 2016(12)
[10]短文本理解研究[J]. 王仲远,程健鹏,王海勋,文继荣. 计算机研究与发展. 2016(02)
博士论文
[1]基于特征选择的文本分类方法研究[D]. 胡小娟.吉林大学 2018
[2]基于深度学习的短文本分析与计算方法研究[D]. 李岩.北京科技大学 2016
[3]基于深度神经网络的文本表示及其应用[D]. 户保田.哈尔滨工业大学 2016
[4]短文本信息抽取若干技术研究[D]. 郑立洲.中国科学技术大学 2016
[5]基于深度学习的文本向量化研究与应用[D]. 于政.华东师范大学 2016
[6]短文本相似度计算在用户交互式问答系统中的应用[D]. 宋万鹏.中国科学技术大学 2010
[7]短文本语言计算的关键技术研究[D]. 龚才春.中国科学院研究生院(计算技术研究所) 2008
硕士论文
[1]基于Attention-Based C-GRU模型的文本分类研究[D]. 杨东.北京交通大学 2018
[2]基于深度学习的短文本分类及信息抽取研究[D]. 李超.郑州大学 2017
[3]基于长短时记忆网络的多标签文本分类[D]. 熊涛.浙江大学 2017
[4]基于卷积神经网络的短文本分类方法研究[D]. 蔡慧苹.西南大学 2016
[5]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
[6]基于深度学习的短文本语义相似度计算[D]. 陈晓阳.北京理工大学 2015
[7]基于LDA多模型中文短文本主题分类体系构建与分类[D]. 郭剑飞.哈尔滨工业大学 2014
[8]搜索引擎中网络爬虫及结果聚类的研究与实现[D]. 梁萍.中国科学技术大学 2011
[9]基于短文本的分类算法研究[D]. 徐易.上海交通大学 2010
[10]互联网短文本信息分类关键技术研究[D]. 柴春梅.上海交通大学 2009
本文编号:3622984
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3622984.html