基于改进K-Means的新闻聚类算法研究
发布时间:2021-04-10 18:35
随着各种网络媒体的迅猛发展,获取新闻信息愈发便捷,但是这也造成了数据积累。如何在海量数据发掘潜在信息并有效利用成为现今重点研究领域。聚类分析是数据挖掘重要方法之一,被广泛应用在生物信息、金融、医疗等领域中。本文主要对新闻文本聚类进行研究,提出了基于改进K-Means的新闻聚类算法。首先,结合新闻文本的结构特征提出了TI值概念。TI值是基于正文特征词的词频-逆向文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)值,结合了新闻的标题与导语两个重要因素产生的,用于文本特征向量的提取,以便使文本特征向量具有代表性,提高聚类效果。其次,针对最大距离算法时间复杂度高,聚类效果不稳定等问题,对其进行了优化,并结合TI值形成TIMK-Means算法。该算法将TI值用于构造文本特征向量,并且改变了最大距离算法中距离的计算方式,从而降低算法的时间复杂度。此外还在初始中心选择过程中加入了孤立点检测,以便能够在迭代过程中去除孤立点,得到更加合理的初始聚类中心。再次,为了应对算法在处理海量数据耗时严重的问题,对算法进行了并行化改造。...
【文章来源】:燕山大学河北省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
聚类理想效果图
【参考文献】:
期刊论文
[1]基于改进相似度与类中心向量的半监督短文本聚类算法[J]. 李晓红,冉宏艳,龚继恒,颜丽,马慧芳. 计算机工程与科学. 2018(09)
[2]基于用户行为特征的多维度文本聚类[J]. 黎万英,黄瑞章,丁志远,陈艳平,徐立洋. 计算机应用. 2018(11)
[3]基于余弦距离选取初始簇中心的文本聚类研究[J]. 王彬宇,刘文芬,胡学先,魏江宏. 计算机工程与应用. 2018(10)
[4]IO dependent SSD cache allocation for elastic Hadoop applications[J]. Zhen TANG,Wei WANG,Lei SUN,Yu HUANG,Heng WU,Jun WEI,Tao HUANG. Science China(Information Sciences). 2018(05)
[5]基于改进k-means算法的文本聚类[J]. 蒋丽,薛善良. 计算机与现代化. 2018(04)
[6]一种基于频繁词集表示的新文本聚类方法[J]. 张雪松,贾彩燕. 计算机研究与发展. 2018(01)
[7]具有词判别力学习能力的短文本聚类概率模型研究[J]. 牛亚男. 计算机应用研究. 2018(12)
[8]基于特征空间的文本聚类[J]. 黄建宇,周爱武,肖云,谭天诚. 计算机技术与发展. 2017(09)
[9]Tag clustering algorithm LMMSK: improved K-means algorithm based on latent semantic analysis[J]. Jing Yang,Jun Wang. Journal of Systems Engineering and Electronics. 2017(02)
[10]基于Multi-Agent的分布式文本聚类模型[J]. 乔少杰,韩楠,金澈清,高云君,李天瑞,唐常杰,康健. 计算机学报. 2018(08)
本文编号:3130136
【文章来源】:燕山大学河北省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
聚类理想效果图
【参考文献】:
期刊论文
[1]基于改进相似度与类中心向量的半监督短文本聚类算法[J]. 李晓红,冉宏艳,龚继恒,颜丽,马慧芳. 计算机工程与科学. 2018(09)
[2]基于用户行为特征的多维度文本聚类[J]. 黎万英,黄瑞章,丁志远,陈艳平,徐立洋. 计算机应用. 2018(11)
[3]基于余弦距离选取初始簇中心的文本聚类研究[J]. 王彬宇,刘文芬,胡学先,魏江宏. 计算机工程与应用. 2018(10)
[4]IO dependent SSD cache allocation for elastic Hadoop applications[J]. Zhen TANG,Wei WANG,Lei SUN,Yu HUANG,Heng WU,Jun WEI,Tao HUANG. Science China(Information Sciences). 2018(05)
[5]基于改进k-means算法的文本聚类[J]. 蒋丽,薛善良. 计算机与现代化. 2018(04)
[6]一种基于频繁词集表示的新文本聚类方法[J]. 张雪松,贾彩燕. 计算机研究与发展. 2018(01)
[7]具有词判别力学习能力的短文本聚类概率模型研究[J]. 牛亚男. 计算机应用研究. 2018(12)
[8]基于特征空间的文本聚类[J]. 黄建宇,周爱武,肖云,谭天诚. 计算机技术与发展. 2017(09)
[9]Tag clustering algorithm LMMSK: improved K-means algorithm based on latent semantic analysis[J]. Jing Yang,Jun Wang. Journal of Systems Engineering and Electronics. 2017(02)
[10]基于Multi-Agent的分布式文本聚类模型[J]. 乔少杰,韩楠,金澈清,高云君,李天瑞,唐常杰,康健. 计算机学报. 2018(08)
本文编号:3130136
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3130136.html