基于多粒度主题模型的短文本分类算法研究

发布时间:2022-02-22 09:22
  随着移动互联网的快速发展和微博、微信等新媒体平台的迅速普及,产生了大量的短文本数据,对短文本的理解和处理变得越来越重要。文本分类是文本数据挖掘的重要方法之一,在信息检索、情感分析和内容推荐等领域都发挥重要作用。由于短文本的稀疏性,传统的文本分类方法直接应用于短文本的效果并不十分理想。针对短文本稀疏性问题,提出了一种基于多粒度主题模型的特征扩展方法。利用LDA从背景语料库中训练出多个不同粒度的主题模型,从中挑选出一个最优的组合构成主题特征空间,然后将短文本在主题上的概率分布作为扩展特征,并与原始特征结合,从而实现短文本的特征扩展。最后,将扩展特征向量输入到KNN和SVM等分类器中,实现短文本的分类过程。在腾讯新闻数据集和复旦大学文本分类数据集上,将提出的方法与其他经典的短文本特征扩展或分类方法进行对比,验证方法的有效性。与基于单粒度主题模型的传统特征扩展方法相比,提出的基于多粒度主题模型的特征扩展方法在KNN和SVM两个分类器上MicroF1值分别有1.81%和3.15%的提高,也比其他特征扩展方法取得了更优的分类效果。实验结果表明,提出的基于多粒度主题模型的特征扩展方法能有效解决短文本... 

【文章来源】:华中科技大学湖北省211工程院校985工程院校教育部直属院校

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

基于多粒度主题模型的短文本分类算法研究


LDA概率图模型

决策图,超平面,分类器


选择过程如下:分布 选择一个主题: z ~Multinomial( )布 选择一个主题词: w ~Multinomial( )有很多,比较常用的有朴素贝叶斯、决策树、大熵分类器等,其中一般认为在文本分类上效在实验部分也使用到了这两种分类器,故此只本集 D{(,),(,),...,(,)}1 122nn xyxyxy,其中 iy 何在样本空间中找到一个合适的超平面,能够.2 所示:

支持向量


持向量的微小变动就会改变最佳超平面的位置。使数据正确划分并且不同类别的支持向量之间间隔最大的超平面。,首先通过公式 2.8 来定义样本空间中的划分超平Wx b 0T面的法向量,b 为偏移量。当找到一个超平面能的训练样本都应满足公式 2.9: 1111iiTiiTWxbyWxby 1iy 代表正例样本, 1iy 代表负例样本;式子了计算方便,也可以取其他任意值。该公式实

【参考文献】:
期刊论文
[1]基于LDA特征扩展的短文本分类[J]. 吕超镇,姬东鸿,吴飞飞.  计算机工程与应用. 2015(04)
[2]基于卡方特征选择和LDA主题模型的中文短文本分类[J]. 郑诚,熊大康,刘倩倩.  电脑知识与技术. 2014(13)
[3]基于语义与最大匹配度的短文本分类研究[J]. 孙建旺,吕学强,张雷瀚.  计算机工程与设计. 2013(10)
[4]改进的基于《知网》的词汇语义相似度计算[J]. 朱征宇,孙俊华.  计算机应用. 2013(08)
[5]基于LDA主题模型的短文本分类方法[J]. 张志飞,苗夺谦,高灿.  计算机应用. 2013(06)
[6]基于LDA的中文文本相似度计算[J]. 孙昌年,郑诚,夏青松.  计算机技术与发展. 2013(01)
[7]基于维基百科的中文短文本分类研究[J]. 范云杰,刘怀亮.  现代图书情报技术. 2012(03)
[8]一种基于WordNet的短文本语义相似性算法[J]. 翟延冬,王康平,张东娜,黄岚,周春光.  电子学报. 2012(03)
[9]利用上下位关系的中文短文本分类[J]. 王盛,樊兴华,陈现麟.  计算机应用. 2010(03)



本文编号:3639164

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3639164.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户57019***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com