当前位置:主页 > 科技论文 > 软件论文 >

基于闭频繁项集短文本聚类

发布时间:2018-04-26 13:55

  本文选题:短文本 + 语义模型 ; 参考:《计算机应用》2016年S2期


【摘要】:为应对基于向量空间模型的短文本聚类面临的关键词特征稀疏、高维及样本数量多等挑战,将潜在语义模型应用于短文本分析。首先基于潜在主题模型对实验短文本集进行建模,以K-means算法、Single-Pass算法及近邻传播(AP)算法作为聚类算法对文本集进行聚类。聚类结果表明近AP聚类效果最好,F-measure测度达77.43%。提出一种基于闭频繁项集的聚类方法,比较最大频繁项集和闭频繁项集的关系,提出一种基于闭频繁项集的文本相似度计算方法。闭频繁项集引入可以有效实现特征降维,挖掘出有益于聚类的词语项集。实验结果表明,基于闭频繁项集的聚类提高了聚类效果,相比基于潜在狄利克雷分布(LDA)模型,三种算法在F-measure和纯度有10%以上的提高。
[Abstract]:In order to deal with the challenges of short text clustering based on vector space model, such as sparse keyword features, high dimension and large number of samples, the potential semantic model is applied to text analysis. Firstly, the experimental text set is modeled based on the potential topic model, and the text set is clustered by using the K-means algorithm, Single-Pass algorithm and the nearest neighbor Propagation algorithm as clustering algorithms. The clustering results show that the near AP clustering effect is the best and the F-measure measure is 77.43. A clustering method based on closed frequent itemsets is proposed to compare the relationship between maximal frequent itemsets and closed frequent itemsets and a text similarity calculation method based on closed frequent itemsets is proposed. The introduction of closed frequent itemsets can effectively reduce the dimensionality of features and mine out the lexical itemsets beneficial to clustering. The experimental results show that clustering based on closed frequent itemsets can improve the clustering performance. Compared with the latent Delikley distributed LDA-based model, the F-measure and purity of the three algorithms are improved by more than 10%.
【作者单位】: 火箭军工程大学理学院;
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 肖基毅,邹腊梅,刘丰;频繁项集挖掘算法研究[J];情报杂志;2005年11期

2 蔡进;薛永生;张东站;;基于分区分类法快速更新频繁项集[J];计算机工程与应用;2007年09期

3 胡学钢;徐勇;王德兴;张晶;;基于多剪枝格的频繁项集表示与挖掘[J];合肥工业大学学报(自然科学版);2007年04期

4 胡学钢;刘卫;王德兴;;基于剪枝概念格模型的频繁项集表示及挖掘[J];合肥工业大学学报(自然科学版);2007年09期

5 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[J];微电子学与计算机;2008年10期

6 李彦伟;戴月明;王金鑫;;一种挖掘加权频繁项集的改进算法[J];计算机工程与应用;2011年15期

7 陈立潮,张建华,刘玉树;提高频繁项集挖掘算法效率的方法研究[J];计算机工程与应用;2002年10期

8 朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期

9 宋宝莉;张帮华;何炎祥;朱骁峰;;带有多个可转化约束的频繁项集挖掘算法[J];计算机科学;2003年12期

10 王自强,冯博琴;频繁项集的简洁表示方法研究[J];系统工程理论与实践;2004年07期

相关会议论文 前10条

1 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年

2 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

3 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年

4 李彤岩;李兴明;;基于分布式关联规则挖掘的告警相关性研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年

5 王洪利;冯玉强;;频繁项集挖掘算法Apriori的改进研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年

6 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年

7 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

8 邹远娅;周皓峰;王晨;汪卫;施伯乐;;FSC——利用频繁项集挖掘估算视图大小[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

10 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

相关博士学位论文 前3条

1 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年

2 董杰;基于位表的关联规则挖掘及关联分类研究[D];大连理工大学;2009年

3 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院(计算技术研究所);2004年

相关硕士学位论文 前10条

1 王立俊;基于多重最小支持度的氋效用频繁项集挖掘算法研究[D];广西大学;2015年

2 陈国俊;基于Hadoop的云存储系统的研究与应用[D];电子科技大学;2014年

3 尹艳红;基于Apriori算法的增量式关联规则控制研究[D];大连理工大学;2015年

4 田苗凤;大数据背景下并行动态关联规则挖掘研究[D];兰州交通大学;2015年

5 李雪迪;基于本体论的精细化数据分析[D];南京邮电大学;2015年

6 许静文;基于模糊等价类的频繁项集精简表示算法研究[D];合肥工业大学;2015年

7 王大伟;大数据环境下的关联规则提取算法研究[D];辽宁工业大学;2016年

8 廖友金;基于有向图的关联规则挖掘研究与改进[D];东南大学;2015年

9 王苏琦;基于Hadoop的不确定频繁项集并行挖掘方法研究[D];南京大学;2013年

10 韩宏莹;并行数据挖掘技术在电信网管告警中的应用研究[D];长春工业大学;2016年



本文编号:1806296

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1806296.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户93bfe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com