基于Wikipedia语料扩展的短文本数据流分类方法研究

发布时间：2021-11-26 01:10

　　社交网络等领域产生了海量的短文本数据流,一方面,由于短文本自身长度短,语义信息不足,带来文本的高维稀疏问题,同时流环境下的短文本数据又隐含概念漂移等特点,导致传统的文本分类方法难以直接应用。另一方面,随着短文本数据的快速产生,人工标注所有短文本数据不仅费时费力,且几乎是不可能完成,因此,如何在少量的有标签短文本数据的情况下,充分利用丰富的无标签短文本数据提升分类精度也是一大挑战。针对以上问题,本文对短文本数据流分类算法进行了研究,其主要工作如下:（1）概述已有的短文本分类的相关工作,包括:有监督短文本与短文本数据流分类方法、半监督短文本分类方法以及半监督数据流分类方法。（2）针对短文本数据流存在的特征高维稀疏以及概念漂移问题,提出一种基于文本扩展和概念漂移检测的短文本数据流分类算法。该方法首先从Wikipedia获取外部语料用于扩展短文本,同时借助在线BTM模型（Online Biterm Topic Model）选择代表性主题表示短文本,从而解决短文本的高维稀疏问题;其次,为检测短文本数据流中的概念漂移问题,提出一种基于主题的概念漂移检测算法;最后,该方法基于数据块构建集成模型,同时...

【文章来源】：合肥工业大学安徽省 211工程院校教育部直属院校

【文章页数】：65 页

【学位级别】：硕士

【部分图文】：

ExpaNet模型结构

主题,短文

图 2.2 主题记忆网络Figure 2.2 Topic Memory Network 有监督的短文本数据流分类方法目前针对短文本数据流分类的研究工作还很少。比较具有代表性的工作有uaziz 等[25]提出 IGLM 模型，通过不断更新分类器提高数据流分类。首先，根始训练集训练随机森林分类器，其次，当有数据到来时先利用初始分类器进类，同时结合主动学习的方法将错分类的短文本加到训练集中，通过计算先练集与当前错分类短文本信息增益的差值决定是否更新分类模型。Ren 等[26]分层多标签短文本数据流分类。首先，基于实体链接和查询语句的排序方法短文本，然后，通过将主题分成动态全局主题和局部主题构建动态概率主题，最后，使用基于块的结构优化策略分类短文本。Li 等[27]提出一种增量式的模型适应短文本数据流，首先，公开语义网络 Probase 被用于扩展特征空间，通过引入更多的基于短文本隐藏术语的语义上下文信息来弥补数据的稀疏性时为减少噪音影响，基于语义信息消除所有术语的歧义。然后基于概念簇的

【参考文献】：
期刊论文
[1]基于词项关联的短文本分类研究[J]. 章昉,颜华驹,刘明君,赵中英. 集成技术. 2015(03)
[2]利用图结构进行半监督学习的短文本分类研究[J]. 张倩,刘怀亮. 图书情报工作. 2013(21)

本文编号：3519131

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3519131.html

上一篇：面向少量标注数据的中文命名实体识别技术研究
下一篇：模拟砂箱3D打印技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|