分布式短文本数据流分类方法研究

发布时间:2021-09-17 17:51
  实际应用领域涌现出大量的短文本数据流,如:微博数据、实时弹幕和实时评论等。其主要具有两大特点:一方面每个文本都十分短小,缺少充分的上下文语义信息;另一方面,随着时间推移,文本流快速海量涌现,且其类标签分布也在不断发生变化。上述特点导致在短文本数据流分类时出现信息稀疏、歧义、概念漂移等问题,使得传统的文本分类方法难以直接应用。因此,如何快速有效地处理海量实时的短文本数据流,成为实际应用领域数据流挖掘的重要而富有挑战的任务之一。基于此,本文开展了分布式短文本数据流分类方法研究,主要研究工作包括:(1)为了解决信息稀疏、歧义、概念漂移问题,提出一种基于Word2vec的分布式短文本数据流分类方法。该方法首先使用外部语料库构建Word2vec词向量模型完成短文本的向量化过程,通过丰富的语料信息以弥补短文本的信息不足,并获取训练过程中的罕见词构建扩展词向量库以降低词歧义的影响。其次,提出一种分布式Logistic Regression(LR)集成模型用于分类海量实时的短文本数据流,其中分类器参数能随数据流的到来而不断地实时更新。同时引入时间因子机制以适应概念漂移环境。最后,利用Apache Sp... 

【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

分布式短文本数据流分类方法研究


Q2全球数字报告2019互联网用户增长量Figure1.1Growthof2019NetworkUsersfromQ2GlobalDigitalReport

对比图,时间性,算法,概念


第三章基于Word2vec的分布式短文本数据流分类方法研究26图3.6ICM-Word2vec与基准算法在时间性能上的对比Figure3.6ComparisonofICM-Word2vecandbenchmarkalgorithmintime图3.7ICM-Word2vec与基准算法在概念漂移上的实验对比Figure3.7ComparisonofICM-Word2vecandbenchmarkalgorithmonconceptdrift高于E.Drift-ensenmble算法。但在数据量较大的场景下,我们方法的时间性能远远高于E.Drift-ensenmble算法。在Tweet数据集上的实验结果也验证了这一点。一般的,fastText与sk-learn算法在三个数据集的时间代价消耗都低于ICM-Word2vec与E.Drift-ensenmble算法。这是因为在训练数据时fastText与sk-learn算法未解决短文本的高维稀疏问题,也未考虑其中潜在的概念漂移问题。而ICM-Word2vec与E.Drift-ensenmble算法对上述问题做出了优化处理,以一定的时间代价来换取模型准确度的提高。3.3.4.3适应概念漂移的性能表现对比图3.7展示了所提方法ICM-Word2vec与基准算法在概念漂移问题上的实验结果对比。从实验结果可知:ICM-Word2vec算法可以很好地适应概念漂移环境,并且可以稳定分类精度,在发生概念漂移的数据块上。原因分析如下:概念漂移发生的概念都是历史概念,未产生新概念,当新的数据块到来时,基准算法会利用新数据块不断地更新模型,抛弃了历史概念,而本章所提方法ICM-Word2vec

对比图,概念,算法


第三章基于Word2vec的分布式短文本数据流分类方法研究26图3.6ICM-Word2vec与基准算法在时间性能上的对比Figure3.6ComparisonofICM-Word2vecandbenchmarkalgorithmintime图3.7ICM-Word2vec与基准算法在概念漂移上的实验对比Figure3.7ComparisonofICM-Word2vecandbenchmarkalgorithmonconceptdrift高于E.Drift-ensenmble算法。但在数据量较大的场景下,我们方法的时间性能远远高于E.Drift-ensenmble算法。在Tweet数据集上的实验结果也验证了这一点。一般的,fastText与sk-learn算法在三个数据集的时间代价消耗都低于ICM-Word2vec与E.Drift-ensenmble算法。这是因为在训练数据时fastText与sk-learn算法未解决短文本的高维稀疏问题,也未考虑其中潜在的概念漂移问题。而ICM-Word2vec与E.Drift-ensenmble算法对上述问题做出了优化处理,以一定的时间代价来换取模型准确度的提高。3.3.4.3适应概念漂移的性能表现对比图3.7展示了所提方法ICM-Word2vec与基准算法在概念漂移问题上的实验结果对比。从实验结果可知:ICM-Word2vec算法可以很好地适应概念漂移环境,并且可以稳定分类精度,在发生概念漂移的数据块上。原因分析如下:概念漂移发生的概念都是历史概念,未产生新概念,当新的数据块到来时,基准算法会利用新数据块不断地更新模型,抛弃了历史概念,而本章所提方法ICM-Word2vec

【参考文献】:
期刊论文
[1]结合LDA与Self-Attention的短文本情感分类方法[J]. 陈欢,黄勃,朱翌民,俞雷,余宇新.  计算机工程与应用. 2020(18)
[2]短文本分类技术研究综述[J]. 邓丁朋,周亚建,池俊辉,李佳乐.  软件. 2020(02)
[3]从大数据到大知识:HACE+BigKE[J]. 吴信东,何进,陆汝钤,郑南宁.  自动化学报. 2016(07)
[4]基于分布式数据流的大数据分类模型和算法[J]. 毛国君,胡殿军,谢松燕.  计算机学报. 2017(01)



本文编号:3399220

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3399220.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ad4d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com