一类改进DBSCAN算法及在金融中的应用
发布时间:2021-04-02 20:24
提出了一类具有自适应参数的改进DBSCAN聚类算法,并应用于发现证券市场中关联基金账户所组成的信息群落.算法针对传统算法中半径参数ε敏感度高,对于多层密度数据集难以选择全局参数而导致聚类结果差等缺点进行了改进,此外还基于实际市场数据特征,自定义了刻画两个基金间相似程度的综合距离,使得改进算法能更好地应用在解决实际问题上.最后通过基于模拟数据和实际数据的数值实验,验证了改进算法的有效性.
【文章来源】:高校应用数学学报A辑. 2020,35(02)北大核心
【文章页数】:12 页
【部分图文】:
OPTICS聚类(左:数据集;右:山谷图)
为了反映针对ε的改进算法2在多密度数据集合中的聚类效果,构造了如图2所示的二维数据点集合.该数据集含有三个类,包括一个高密度类C1(“+”),一个中密度类C2(“?”)以及一个低密度的环状结构类C3(“”),此外包含了a,b和c三个噪声点(“·”).对于DBSCAN传统算法与改进算法,统一取M=4,分别取ε=εc=0.5,0.8进行聚类.聚类结果见图3和图4.
实验结果图中,“+”代表第一类中的数据点,“?”代表第二类中的数据点,“”代表第三类中的数据点,“·”代表噪声点.如图3所示,ε=0.5时传统算法成功识别了三类,没能识别出离群噪声点c,并将其归为C2类.如图4所示,ε=0.8时传统算法将C1和C3以及噪声点a都归入了同一类同时噪声点c也被归入了C2类.但两种情况改进算法都正确进行了聚类,同时发现不同εc并没有导致聚类结果的改变,可见改进算法对于输入参数的依赖性不大.此外,改进算法得到的类标签(符号)正好对应从大到小排列的类密度.这有助于更全面地了解数据集的分布性质.图4 ε=εc=0.8时的聚类结果(左:传统算法;右:改进算法)
【参考文献】:
期刊论文
[1]DBSCAN算法中参数的自适应确定[J]. 李宗林,罗可. 计算机工程与应用. 2016(03)
[2]SA-DBSCAN:一种自适应基于密度聚类算法[J]. 夏鲁宁,荆继武. 中国科学院研究生院学报. 2009(04)
本文编号:3115902
【文章来源】:高校应用数学学报A辑. 2020,35(02)北大核心
【文章页数】:12 页
【部分图文】:
OPTICS聚类(左:数据集;右:山谷图)
为了反映针对ε的改进算法2在多密度数据集合中的聚类效果,构造了如图2所示的二维数据点集合.该数据集含有三个类,包括一个高密度类C1(“+”),一个中密度类C2(“?”)以及一个低密度的环状结构类C3(“”),此外包含了a,b和c三个噪声点(“·”).对于DBSCAN传统算法与改进算法,统一取M=4,分别取ε=εc=0.5,0.8进行聚类.聚类结果见图3和图4.
实验结果图中,“+”代表第一类中的数据点,“?”代表第二类中的数据点,“”代表第三类中的数据点,“·”代表噪声点.如图3所示,ε=0.5时传统算法成功识别了三类,没能识别出离群噪声点c,并将其归为C2类.如图4所示,ε=0.8时传统算法将C1和C3以及噪声点a都归入了同一类同时噪声点c也被归入了C2类.但两种情况改进算法都正确进行了聚类,同时发现不同εc并没有导致聚类结果的改变,可见改进算法对于输入参数的依赖性不大.此外,改进算法得到的类标签(符号)正好对应从大到小排列的类密度.这有助于更全面地了解数据集的分布性质.图4 ε=εc=0.8时的聚类结果(左:传统算法;右:改进算法)
【参考文献】:
期刊论文
[1]DBSCAN算法中参数的自适应确定[J]. 李宗林,罗可. 计算机工程与应用. 2016(03)
[2]SA-DBSCAN:一种自适应基于密度聚类算法[J]. 夏鲁宁,荆继武. 中国科学院研究生院学报. 2009(04)
本文编号:3115902
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/3115902.html