当前位置:主页 > 科技论文 > 软件论文 >

文本聚类算法及其在话题发现中的应用研究

发布时间:2019-09-22 13:01
【摘要】:随着当今世界信息化时代的迅猛发展,大量的数据信息呈现出爆炸式的增长态势,而且随着互联网的进步,这些海量数据的传播速度也日益加快。由于网民的大规模增长,网络舆情在一定程度上呈现出社会的舆情导向。如何正确的引导,保证网络健康的发展,加强网络舆情监控和管理面临着巨大的压力和挑战。目前话题发现是及时了解网络信息的一种手段,可以对网络信息进行有效的分类,从而使网络监管机构可以快速了解网络动态。话题发现可以理解为一种针对事件的聚类,话题发现技术的核心是聚类分析,而文本聚类是目前话题发现技术中最常用也是最重要的方法。近些年来,基于有限混合模型的聚类方法得到了国内外学者更多的关注和研究。其中,有限高斯混合模型在各个应用领域得到了广泛的研究。但是,在现实中,随着数据的复杂化,许多数据的概率分布都不符合高斯分布,因此有限高斯混合模型无法准确的对这些具有非高斯性的数据进行拟合。目前有限混合模型存在着模型参数估计和模型选择困难的问题。模型分量数的选择过多或过少会引起模型的过拟合或欠拟合的问题,而无限混合模型通过初始时假设混合分量数无穷大,可以直接避开混合模型的模型选择问题。狄利克雷混合模型是一种非参数的贝叶斯模型,可以理解为一种有效的聚类方法,适用于对有界的数据进行建模研究。因此,本文以话题发现为研究背景,针对有限混合模型存在的问题,在研究利用无限狄利克雷混合模型的学习方法对非高斯数据建模的基础上,提出了一种变分近似推理的算法。利用目标数据集进行了大量实验,验证了本文提出的基于无限狄利克雷混合模型的变分学习算法和有限狄利克雷混合模型相比,具有更精确的参数估计和更快的算法收敛速度,可以很好地解决有限混合模型中存在的参数估计和模型选择的问题。同时,本文将研究的基于无限狄利克雷混合模型的变分学习算法应用于文本聚类中,得到很好的文本聚类效果,然后设计并搭建话题发现系统并将本文研究的文本聚类算法应用于话题发现。
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 乔少杰;金琨;韩楠;唐常杰;格桑多吉;Louis Alberto GUTIERREZ;;一种基于高斯混合模型的轨迹预测算法[J];软件学报;2015年05期

2 王鹏;高铖;陈晓美;;基于LDA模型的文本聚类研究[J];情报科学;2015年01期

3 赖裕平;丁洪伟;周亚建;郭玉翠;杨义先;;有限贝塔刘维尔混合模型的变分学习及其应用[J];电子学报;2014年07期

4 崔玮;吴成东;张云洲;贾子熙;程龙;;基于高斯混合模型的非视距定位算法[J];通信学报;2014年01期

5 梅素玉;王飞;周水庚;;狄利克雷过程混合模型、扩展模型及应用[J];科学通报;2012年34期

6 吴夙慧;成颖;郑彦宁;潘云涛;;文本聚类中文本表示和相似度计算研究综述[J];情报科学;2012年04期

7 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期

8 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期

9 陈广福;蔡国永;林航;王瑞丽;刘国宾;;多Agent系统中基于狄利克雷分布的信任模型[J];计算机工程;2011年14期

10 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期

相关博士学位论文 前1条

1 赖裕平;非高斯混合模型的变分学习算法研究[D];北京邮电大学;2014年

相关硕士学位论文 前3条

1 古俊哲;有限高斯混合模型聚类算法的研究[D];兰州商学院;2014年

2 詹勇;基于主题模型和混合模型的微博客交叉话题发现研究[D];西南交通大学;2013年

3 赖文杰;教育新闻热点话题发现系统的设计与实现[D];华中科技大学;2011年



本文编号:2539999

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2539999.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a2a72***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com