基于重要性采样的流聚类算法研究
发布时间:2021-06-22 08:56
近年来,流数据分析已成为数据挖掘领域研究的热点,其发展非常迅速,但当前大多数的流聚类算法都是线性的,在现实世界中这些线性的聚类算法并不能达到令人满意的聚类质量。因此,如何让真实世界中的数据有更高的聚类质量是当前亟待解决的问题。针对上述问题,提出一种基于核方法的高效率聚类算法。首先,利用重要性采样的方法来采集数据流中的子集,并用样本点构造其核矩阵;其次,利用样本点的皮尔森相关系数的计量方法对核矩阵中的点进行实时的聚类,得到一个带有标记的样本核矩阵,利用该矩阵对数据流中的点进行划分,将其投影到顶部特征向量所跨越的高维空间中;最后,利用核模糊c均值将高维空间数据点映射到低维空间中得到聚类结果,并用衰退聚类机制进行更新。数据集实验测试结果表明,本文算法与传统聚类算法相比,评价指标中SSE相对较低,ARI、NMI相对较高,而且能够实现实时聚类,有效避免数据处理过程中的维数灾难。综上,本文算法仅需从数据流中采样少量的样本点,所产生的近似误差具有较好的有界性,同时使用核方法使得数据点在特征空间之中变得线性可分。而且有效地减少了调整复杂参数的需要,同时与传统基于内核的聚类算法在同等条件下相比,加速效果...
【文章来源】:辽宁工程技术大学辽宁省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
流数据处理过程图
滑动窗口模型图
流数据实时处理过程
【参考文献】:
期刊论文
[1]差异性采样下的流数据聚类算法分析[J]. 赵立新. 计算机产品与流通. 2019(01)
[2]基于森林自动机处理XML流数据方法[J]. 何志学,廖湖声. 计算机工程与设计. 2018(10)
[3]基于改进的密度峰值算法的K-means算法[J]. 杜洪波,白阿珍,朱立军. 统计与决策. 2018(18)
[4]一种基于滑动窗口模型的数据流加权频繁模式挖掘方法[J]. 石秀金,蔡艺松. 智能计算机与应用. 2018(02)
[5]基于马氏距离的模糊聚类优化算法——KM-FCM[J]. 祖志文,李秦. 河北科技大学学报. 2018(02)
[6]基于差异性采样的流数据聚类算法[J]. 邱云飞,孙梦冉. 计算机应用研究. 2019(06)
[7]云计算环境下关联性大数据实时流式可控聚类算法[J]. 李鹏飞,刘春宇,海军. 科学技术与工程. 2018(07)
[8]基于奇异值分解(SVD)的桥梁监测数据去噪方法[J]. 邱志伟,岳顺,岳建平,汪学琴. 工程勘察. 2017(12)
[9]一种基于模糊核聚类的谱聚类算法[J]. 范子静,罗泽,马永征. 计算机工程. 2017(11)
[10]基于空间模糊核聚类的脑肿瘤图像分割方法[J]. 张腾达,吕晓琪,任晓颖,谷宇,张明. 控制工程. 2017(10)
博士论文
[1]实时流数据分析的关键技术及应用[D]. 杨定裕.上海交通大学 2015
硕士论文
[1]基于STORM的流数据分类挖掘算法的研究[D]. 张发杨.南京邮电大学 2016
[2]基于DStream模型流处理系统动态配置研究[D]. 刘金.山东大学 2016
[3]基于宏森林自动机的XML流数据查询技术[D]. 冯学智.北京工业大学 2015
[4]面向数据流挖掘算法的研究与改进[D]. 钱瑞.南京邮电大学 2015
[5]基于滑动窗口的不确定数据流聚类算法研究[D]. 刘均伟.西安电子科技大学 2013
[6]流数据的层次聚类和频繁模式的挖掘算法研究[D]. 屠强.南京理工大学 2011
[7]基于密度单元覆盖的聚类数据流算法研究[D]. 施鸿喜.郑州大学 2007
本文编号:3242548
【文章来源】:辽宁工程技术大学辽宁省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
流数据处理过程图
滑动窗口模型图
流数据实时处理过程
【参考文献】:
期刊论文
[1]差异性采样下的流数据聚类算法分析[J]. 赵立新. 计算机产品与流通. 2019(01)
[2]基于森林自动机处理XML流数据方法[J]. 何志学,廖湖声. 计算机工程与设计. 2018(10)
[3]基于改进的密度峰值算法的K-means算法[J]. 杜洪波,白阿珍,朱立军. 统计与决策. 2018(18)
[4]一种基于滑动窗口模型的数据流加权频繁模式挖掘方法[J]. 石秀金,蔡艺松. 智能计算机与应用. 2018(02)
[5]基于马氏距离的模糊聚类优化算法——KM-FCM[J]. 祖志文,李秦. 河北科技大学学报. 2018(02)
[6]基于差异性采样的流数据聚类算法[J]. 邱云飞,孙梦冉. 计算机应用研究. 2019(06)
[7]云计算环境下关联性大数据实时流式可控聚类算法[J]. 李鹏飞,刘春宇,海军. 科学技术与工程. 2018(07)
[8]基于奇异值分解(SVD)的桥梁监测数据去噪方法[J]. 邱志伟,岳顺,岳建平,汪学琴. 工程勘察. 2017(12)
[9]一种基于模糊核聚类的谱聚类算法[J]. 范子静,罗泽,马永征. 计算机工程. 2017(11)
[10]基于空间模糊核聚类的脑肿瘤图像分割方法[J]. 张腾达,吕晓琪,任晓颖,谷宇,张明. 控制工程. 2017(10)
博士论文
[1]实时流数据分析的关键技术及应用[D]. 杨定裕.上海交通大学 2015
硕士论文
[1]基于STORM的流数据分类挖掘算法的研究[D]. 张发杨.南京邮电大学 2016
[2]基于DStream模型流处理系统动态配置研究[D]. 刘金.山东大学 2016
[3]基于宏森林自动机的XML流数据查询技术[D]. 冯学智.北京工业大学 2015
[4]面向数据流挖掘算法的研究与改进[D]. 钱瑞.南京邮电大学 2015
[5]基于滑动窗口的不确定数据流聚类算法研究[D]. 刘均伟.西安电子科技大学 2013
[6]流数据的层次聚类和频繁模式的挖掘算法研究[D]. 屠强.南京理工大学 2011
[7]基于密度单元覆盖的聚类数据流算法研究[D]. 施鸿喜.郑州大学 2007
本文编号:3242548
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3242548.html