基于DNA微阵列数据的密度峰值聚类算法研究与应用

发布时间:2021-02-26 03:10
  在生物信息学领域中,通过对肿瘤样本的DNA微阵列数据进行聚类分析,来划分不同的肿瘤类型或亚型一直是研究的重点。利用DNA微阵列数据在分子层面上对肿瘤进行分析,不仅可以根据同一种肿瘤样本相关致病基因的不同表达区分不同的肿瘤亚型。还可以对未知亚型的部分肿瘤进行亚型的预测以及分类。而由于基因本身的特点以及DNA微阵列技术高成本的原因,DNA微阵列数据集大多呈现出高维度、小样本的特点。2014年在Science上提出的密度峰值聚类算法(Density Peak Clustering,DPC)由于其参数简单,聚类准确率较高的优点受到各个领域的广泛认可,具有很高的研究价值。本文主要针对DNA微阵列数据集的特点,以密度峰值聚类算法的改进为研究方向。并将改进后的算法应用在DNA微阵列数据集上进行肿瘤亚型的聚类研究。主要研究内容有:(1)为了解决DPC算法人为参与关键性参数的选取的问题,本文采用将DPC算法和智能优化算法相结合的方式进行改进。算法将蝙蝠算法(Bat Algorithm,BA)和DPC算法相结合。首先对蝙蝠优化算法搜索后期收敛速度变慢,易陷入局部最优的缺点加以改进。将自适应惯性权重加入到B... 

【文章来源】:兰州交通大学甘肃省

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于DNA微阵列数据的密度峰值聚类算法研究与应用


jain数据集运行DPC算法时参数的决策图

算法,函数,情况,蝙蝠


置。而在算法运行的初期,惯性权重很大,此时蝙蝠的飞行速度快,增强了蝙蝠算法初期的全局寻优能力,同时有助于避免算法陷入局部最优。为了验证改进的有效性,将蝙蝠的种群数量设置为 10 只,算法的迭代终止次数设定为 1000,进行实验仿真。同时将改进后算法和 BA 针对相同的适应度函数进行寻优。将算法的适应度函数设置为多峰函数 Griewangk,函数具体公式为公式 3.9 所示。 NiiNiiixxf1121cos40001 (3.9) 函数的搜索空间为n ]600,600[ ,理论最优值为 0。两种算法在函数上迭代 1000 次的收敛情况如图 3.1 所示。

数据集中,聚类,取值,算法


基于DNA微阵列数据的密度峰值聚类算法研究与应用-20-两种算法均可以在一定的迭代次数之内完成寻优操作。但是加入惯性权重之后的改进蝙蝠算法,完成目标寻优所用迭代次数相较于原始算法大大减小,有效的避免了算法过早的陷入局部最优解,同时算法的收敛性明显增强。3.3基于蝙蝠算法的密度峰值聚类算法在DPC算法之中,截断距离的主要选取方式为人工选龋具体操作为给定一个NM的数据集D,计算数据集中所有样本点两两之间的相似度,得到一个NM的相似度矩阵F。将相似度矩阵F中所有的数据从小到大排列,通过人工依照一定的比例选取其中的一个相似度的值作为密度峰值聚类算法应用在该数据集上的截断距离取值。但是在实际操作的过程中,针对不同的数据集,很难根据以往经验来进行选龋即使经过反复对比实验,也很难选取到使得聚类结果最合适的取值。而截断距离能够影响到算法的两个重要参数的计算,会对算法运行结果产生重要影响。例如flame数据集是一个含有240个样本点的二维数据集。图3.2表示在flame数据集当中,截断距离依照不同的比例选取时DPC算法的聚类结果。图3.2flame数据集中截断距离不同取值时的聚类结果

【参考文献】:
期刊论文
[1]应用医疗大数据分析提升临床研究可行性及效力[J]. 冯时,刘爽,朱翀,郭昊,弓孟春.  医学信息学杂志. 2019(12)
[2]不平衡数据挖掘方法综述[J]. 向鸿鑫,杨云.  计算机工程与应用. 2019(04)
[3]基于K近邻和多类合并的密度峰值聚类算法[J]. 薛小娜,高淑萍,彭弘铭,吴会会.  吉林大学学报(理学版). 2019(01)
[4]机器学习方法在文本聚类中的应用[J]. 熊康平.  电子世界. 2018(22)
[5]基于核密度估计的K-CFSFDP聚类算法[J]. 董晓君,程春玲.  计算机科学. 2018(11)
[6]基于免疫网络学习机制的中文网络短文本聚类算法[J]. 沈美英.  自动化与仪器仪表. 2018(10)
[7]四氯化碳致小鼠急性肝损伤模型造模要素及中医药防治的数据挖掘研究[J]. 胡凤娇,宋文杰,王张,梁源,刘光丽.  中药与临床. 2018(05)
[8]基于PSO-SVM的肿瘤特征基因表达数据分析[J]. 赵全钢,陈国华,赵丽敏.  德州学院学报. 2018(04)
[9]基于局部强化最小二乘回归子空间分割的基因表达数据聚类[J]. 简彩仁,翁谦.  三明学院学报. 2016(06)
[10]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi.  Chinese Journal of Electronics. 2016(03)

硕士论文
[1]基于聚类的工业不平衡故障数据分类方法研究[D]. 陈革成.浙江大学 2019
[2]基于惩罚高斯混合模型的高维数据聚类分析[D]. 朱桂菊.兰州大学 2016
[3]数据挖掘在教学评估系统中的应用研究[D]. 伍熙熙.北京化工大学 2015
[4]用计算生物学方法根据基因表达谱数据挖掘大鼠肝再生关键基因研究[D]. 刘云卿.河南师范大学 2014
[5]基于PSO的基因表达数据聚类研究[D]. 靳艳虹.中南大学 2013



本文编号:3051977

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3051977.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2bf3e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com