基于机器学习的短文本聚类算法研究

发布时间:2021-08-26 02:44
  如何快速、准确地从海量网络数据中找到有用的信息,已经成为必须面临的一个重要问题。短文本聚类作为一种信息处理方法,成为挖掘数据信息的重要手段之一。针对传统聚类算法处理具有“长尾现象”的短文本时存在特征信息不足,特征维度高,小类别信息丢失的问题和针对如何解决传统聚类算法在处理网络短文本时严重忽略短文本的外在特征导致聚类结果精度不高的问题,提出了两个不同类型的短文本聚类算法:(1)针对“长尾现象”短文本的频繁项协同剪枝迭代聚类算法(Frequent itemsets collaborative pruning iteration clustering framework,FIPC);(2)考虑短文本外在特征的基于二元异质网络与标签传播的短文本聚类算法(Short text clustering algorithm for binary heterogeneous networks and label propagation,HINLP)。主要工作如下:(1)分析总结了近年来国内外传统算法在短文本聚类领域的研究现状。分别从短文本特征扩展算法、短文本特征选择算法、短文本聚类算法三个方面对短文本聚... 

【文章来源】:中南民族大学湖北省

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

基于机器学习的短文本聚类算法研究


频繁项协同剪枝迭代聚类算法步骤图

【参考文献】:
期刊论文
[1]一种元路径下基于频繁模式的实体集扩展方法[J]. 郑玉艳,田莹,石川.  软件学报. 2018(10)
[2]一种基于频繁词集表示的新文本聚类方法[J]. 张雪松,贾彩燕.  计算机研究与发展. 2018(01)
[3]基于动态主题模型融合多维数据的微博社区发现算法[J]. 刘冰玉,王翠荣,王聪,王军伟,王兴伟,黄敏.  软件学报. 2017(02)
[4]微博文本聚类中特征扩展策略研究[J]. 段旭磊,张仰森,郭正斌.  计算机工程与应用. 2017(13)
[5]基于频繁项集的海量短文本聚类与主题抽取[J]. 彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.  计算机研究与发展. 2015(09)
[6]一种面向医学短文本的自适应聚类方法[J]. 栗伟,许洪涛,赵大哲,刘积仁.  东北大学学报(自然科学版). 2015(01)
[7]稀疏近似最近特征空间嵌入标签传播[J]. 陶剑文,Fu-Lai CHUNG,王士同,姚奇富.  软件学报. 2014(06)
[8]基于子树匹配的文本相似度算法[J]. 张佩云,陈传明,黄波.  模式识别与人工智能. 2014(03)
[9]社会媒体用户标签的分析与推荐[J]. 涂存超,刘知远,孙茂松.  图书情报工作. 2013(23)
[10]基于DBSCAN的最优密度文本聚类算法[J]. 李群,袁津生.  计算机工程与设计. 2012(04)

硕士论文
[1]领域实体关系及语义标签抽取研究[D]. 赵君.昆明理工大学 2013



本文编号:3363384

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3363384.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户144ea***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com