当前位置:主页 > 科技论文 > 搜索引擎论文 >

改进的密度峰值算法应用于文本聚类问题研究

发布时间:2020-08-06 21:23
【摘要】:在当今大数据的时代中,信息技术也已经渗透到各行各业。随着对信息需求的增多,如何帮助用户将繁多的数据处理成逻辑化的形式就成了亟待解决的问题。目前最核心信息载体就是中文文本,文本聚类也成为快速组织和分析用户感兴趣的文本信息的重要途径之一。通过预处理和聚类分析操作,对原本无结构的文本数据形式化描述,最终按照相似度的大小聚成不同类簇,对信息检索、新闻话题发现等具有重要的理论意义。在深入研究的基础上,本文选取了具有参数少、原理简单、易于实现等优点的密度峰值算法用于文本聚类。针对密度峰值算法聚类中心点选择问题,对粒子群算法作出改进,并与之结合,应用在文本聚类中,旨在提高聚类效果。主要做了以下两部分的研究工作:(1)在对标准粒子群算法的各个参数尤其是惯性权重的深入研究上,提出了一种动态调节惯性权重策略,综合考虑粒子适应度值赋予不同的惯性权重,平衡算法在不同迭代时期的全局搜索和局部搜索能力;研究分析了粒子在高维多峰函数寻优时易陷入局部最优的问题,提出了一种由柯西算子构成的扰动因子策略增强种群变异性,拓宽最优粒子搜索空间,帮助逃离局部最优。综合以上两点,提出一种自适应指数惯性权重粒子群优化算法;最后在不同测试函数上进行对比实验,实验结果表明:算法精度和稳定性有所提高。(2)提出了一种新的适应度函数构造方法作为结合AEW-PSO和密度峰值算法的桥梁,综合考虑了局部密度、距离参数以及类内离散度等,更科学的指导聚类中心的选择,提高了算法效果。将基于AEW-PSO优化的密度峰值算法应用在文本聚类中,采用更符合文本距离计算的余弦距离代替原本的欧式距离度量,并提出了算法的整体框架。最后通过对比实验验证了本文提出的算法在准确率、召回率、F1值等三个评价指标上整体取得了最优值,有效实现了文本聚类。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1
【图文】:

中国网,增长率,新兴媒体,绪论


第 1 章 绪论究的背景及意义网等新兴媒体的普及,人们能获取到的信息内容更加丰富,获取。对于热点事件来说,从发生到传播几乎呈现指数型的速率。与信息过载和信息冗余等问题。尤其是在网络人口基数较大的中国根据中国互联网络信息中心第 40 次《中国互联网发展状况统计017 年我国网民的数量已达将近 8 亿人,互联网普及率为 54.3%

流程图,文本聚类,流程图


第 2 章 相关理论和方法类预处理技术类作为文本挖掘与信息检索的重要研究领域之一,有着广泛用途,统、新闻热搜等应用中都有着文本聚类的影子。在众多网络信息中荐今日的热点话题,或者是根据用户浏览习惯所推测出其可能感兴聚类的帮助。聚类分析作为一种无监督的学习,和分类最大的区别数据的特征和属性进行训练和学习。一个高效的文本聚类方法可以构的数据最终处理为一个个簇内相似度较高的数据集,方便用户对本聚类的大概流程如下:

流程图,粒子群算法,流程图,粒子


≥<=(())()()(())()idididididididPbestfXtfPbestXtfXtfPbestPbest 步骤法的步骤如下:化粒子,种群规模设置为M(一般设置粒子数为 20-5 [,]minmaxV V内随机生成粒子的初始位置 (0)idX 和初始子等参数。每个粒子 X(t)id的适应度值。公式(2-18)更新每个粒子的idPbest 和种群的 Gbest 。迭代公式(2-16)和(2-17)更新粒子速度和位置即 V(tid是否达到终止条件即满足迭代次数或者适应度精度1,返回步骤 2。图如下:

【参考文献】

相关期刊论文 前10条

1 周晨曦;梁循;齐金山;;基于约束动态更新的半监督层次聚类算法[J];自动化学报;2015年07期

2 孟祥武;刘树栋;张玉洁;胡勋;;社会化推荐系统研究[J];软件学报;2015年06期

3 陈寿文;;基于质心和自适应指数惯性权重改进的粒子群算法[J];计算机应用;2015年03期

4 熊众望;罗可;;基于改进的简化粒子群聚类算法[J];计算机应用研究;2014年12期

5 文顺;赵杰煜;朱绍军;;基于贝叶斯和谐度的层次聚类[J];模式识别与人工智能;2013年12期

6 翟东海;鱼江;高飞;于磊;丁锋;;最大距离法选取初始簇中心的K-means文本聚类算法的研究[J];计算机应用研究;2014年03期

7 刘海峰;苏展;刘守生;;一种基于词频信息的改进CHI文本特征选择[J];计算机工程与应用;2013年22期

8 王民;尹超;王稚慧;要趁红;高婧;;Binary-Positive下的并行化CURE算法[J];计算机工程与应用;2014年11期

9 郝文宁;冯波;陈刚;靳大尉;赵水宁;;基于领域本体的文档向量空间模型构建[J];计算机应用研究;2013年03期

10 吴晓军;李峰;马悦;辛云宏;;均匀搜索粒子群算法的收敛性分析[J];电子学报;2012年06期

相关硕士学位论文 前1条

1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年



本文编号:2782984

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2782984.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b12af***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com