当今的人们均处在大数据时代背景下,数据增长呈现出了令人吃惊的速度,数据积累逐渐增多,数据之间的内部结构变得不清晰,致使真正了解数据之间的关系变得尤为复杂,基于此,聚类挖掘技术应运而生,通过无监督学习,从庞大的数据中挖掘出数据之间实际的内部关系已成为机器学习探讨的热点。快速搜索发现密度峰值聚类算法(Clustering by fast search and find ofdensity peaks,which could be called DPfor short in this paper)是2014年发表在Science上的一种基于密度的聚类算法,DP算法具有算法原理通俗易懂、聚类高效、操作简便和参数少等优点,基于此,该算法的一经出现就在学术界引起了巨大的轰动,受到了广大科学工作者的推崇,在学术界、商界表现出了极大的竞争实力。尽管如此,DP算法仍然存在几点缺陷:(1)DP算法每次对较高维度的数据进行聚类分析时,由于高维数据存在于自身结构的极大的特殊性,数据拥有的维度数量较多和大量冗余信息的干扰,聚类质量将受到严重的影响,使得密度峰值聚类算法难以找到数据的真实聚类结构;(2)DP算法的参数需要人为进行干预,研究者往往根据自身的经验进行参数的调节,缺乏一定的选择依据;(3)DP算法的聚类结果不能自动给出,需要手动进行确定。本文针对上述问题展开专门研究,分别针对不同问题提出不同的改进方案:(1)本文着力研究对于密度峰值聚类算法在很大程度上难以对较高维度数据进行聚类分析的问题,提出基于熵权法和核主成分分析的密度峰值聚类算法(Density Peak Clustering Algorithm based onEntropy Weightand Kernel Principal Component Analysis,which could be called EWKPCA-DPfor short in this paper)。该算法首先利用熵权法对样本数据赋权,消除无关属性的影响,然后利用核主成分分析法对高维数据进行降维,最后运用密度峰值聚类算法实现高维数据在低维空间的聚类。(2)鉴于数据具有的不同属性会对聚类结果产生不同的影响,本文提出一种基于属性重要性的密度峰值聚类算法(An Improved Attribute Importance-based Clustering Algorithm with Density Peak,which could be called AI-DPfor short in this paper),利用变异系数赋权法对属性赋予不同的权重,然后利用核主成分分析法以非线性方式合理降低数据维度,最后运用密度峰值聚类算法实现最终的聚类。(3)密度峰值聚类算法每次在执行聚类操作时均需要人为输入一定的百分比来设置参数的数值,这样的缺陷使得该算法不但在运行效率上是没有竞争力的,而且在聚类结果准确性方面也会使研究者产生一定的质疑,为此,提出基于果蝇优化的密度峰值聚类算法(Density Peak based on Fruit Fly Optimization Algorithm,which could be called FOA-DPfor short in this paper)。该算法结合果蝇优化算法的全局寻优能力,以信息熵作为评判函数,对密度峰值算法的截断距离参数进行寻优,从而避免通过人为设置参数产生的误差,进一步根据Silhouette有效性指标和F-measure指标来确定最佳聚类结果。由于提出的改进的密度峰值聚类算法具有很大的优越性,将改进的密度峰值聚类算法应用在家电行业上市公司的股票分析中,为上市公司正确分析市场行情,提出客观、准确的投资方案提供理论依据。
【学位单位】:吉林财经大学
【学位级别】:硕士
【学位年份】:2017
【中图分类】:F426.6;F832.51;F406.7
【参考文献】
相关期刊论文 前10条
1 刘艳丽;张建朋;;基于密度峰值搜索的改进流形聚类算法[J];计算机工程与设计;2016年06期
2 WANG Shuliang;WANG Dakui;LI Caoyuan;LI Yan;DING Gangyi;;Clustering by Fast Search and Find of Density Peaks with Data Field[J];Chinese Journal of Electronics;2016年03期
3 黄岚;李玉;王贵参;王岩;;基于点距离和密度峰值聚类的社区发现方法[J];吉林大学学报(工学版);2016年06期
4 谢娟英;高红超;谢维信;;K近邻优化的密度峰值快速搜索聚类算法[J];中国科学:信息科学;2016年02期
5 蒋礼青;张明新;郑金龙;戴娇;尚赵伟;;快速搜索与发现密度峰值聚类算法的优化研究[J];计算机应用研究;2016年11期
6 高兵;张健沛;邹启杰;;基于共享最近邻密度的演化数据流聚类算法[J];北京科技大学学报;2014年12期
7 王浩;李国欢;姚宏亮;李俊照;;基于影响力计算模型的股票网络社团划分方法[J];计算机研究与发展;2014年10期
8 朱林;雷景生;毕忠勤;杨杰;;一种基于数据流的软子空间聚类算法[J];软件学报;2013年11期
9 刘权;郭武;;基于核主成分分析的话题跟踪系统[J];清华大学学报(自然科学版);2013年06期
10 韩俊英;刘成忠;;自适应变异的果蝇优化算法[J];计算机应用研究;2013年09期
相关博士学位论文 前1条
1 楼巍;面向大数据的高维数据挖掘技术研究[D];上海大学;2013年
本文编号:
2807636
本文链接:https://www.wllwen.com/gongshangguanlilunwen/2807636.html