基于集成学习的短文本分类方法

发布时间:2021-03-15 09:46
  随着互联网与社交媒体的快速发展,人们的学习与生活方式也在不断变化。微博、Twitter、BBS和SNS等平台的兴起带来了大量的短文本数据,如新闻标题、网络聊天和商品评价等。这些数据涵盖范围广,信息含量高,为公司、政府和科研机构等组织提供了关键的信息来源。因此,如何对这些短文本数据进行有效管理和分类成为了当下研究的重点。由于短文本具有篇幅短小、特征稀疏和文本形式不规范等特点,传统的长文本分类方法对短文本不能取得较好的分类效果。针对此问题,本文对短文本特征扩展方法进行研究,并结合集成学习方法来提升短文本的分类性能及泛化能力。本文研究包含以下几点:1.针对短文本特征稀疏问题,本文提出了基于LDA主题模型的短文本特征扩展方法。首先通过大文档集训练LDA主题模型,通过该模型预测短文本的文档-主题、主题-词概率分布;然后选择概率值较高的主题,将其下概率较高的词扩展到短文本中。由于传统LDA主题模型主题间相似度较高,本文使用加权LDA主题模型进行训练,降低主题间相似度,提高待扩展词之间的差异度;最后设计实验验证该方法的可行性和有效性。实验结果表明,使用该方法进行特征扩展后,短文本可以取得更好的分类效... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于集成学习的短文本分类方法


文本分类的一般过程

基于集成学习的短文本分类方法


多分类器系统框架

基于集成学习的短文本分类方法


选择性集成的基本思想在过去几十年里,国内外研究者们提出了很多分类器选择方法,目前主要包括

【参考文献】:
期刊论文
[1]基于特征选择的SVM选择性集成学习方法[J]. 扈晓君,康宁.  电子技术与软件工程. 2019(18)
[2]基于信息熵的集成学习过程多样性度量研究[J]. 周钢,郭福亮.  计算机工程与科学. 2019(09)
[3]基于句子级学习改进CNN的短文本分类方法[J]. 韩栋,王春华,肖敏.  计算机工程与设计. 2019(01)
[4]基于知识图谱扩展的短文本分类方法[J]. 丁连红,孙斌,张宏伟.  情报工程. 2018(05)
[5]基于稀疏自学习卷积神经网络的句子分类模型[J]. 高云龙,左万利,王英,王鑫.  计算机研究与发展. 2018(01)
[6]融合词语类别特征和语义的短文本分类方法[J]. 马慧芳,周汝南,吉余岗,鲁小勇.  计算机工程与科学. 2017(02)
[7]基于蚁群优化的极限学习机选择性集成学习算法[J]. 杨菊,袁玉龙,于化龙.  计算机科学. 2016(10)
[8]基于遗传算法优化的稀疏表示图像融合算法[J]. 赵学军,李育珍,雷书彧.  北京邮电大学学报. 2016(02)
[9]基于语义扩展的短问题分类[J]. 冶忠林,杨燕,贾真,尹红风.  计算机应用. 2015(03)
[10]基于LDA特征扩展的短文本分类[J]. 吕超镇,姬东鸿,吴飞飞.  计算机工程与应用. 2015(04)



本文编号:3083980

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3083980.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77d95***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com