一种加权K-均值基因聚类算法
本文选题:微阵列表达数据 + 聚类分析 ; 参考:《哈尔滨理工大学学报》2017年02期
【摘要】:针对微阵列表达数据集中基因-基因之间存在复杂相关关系的问题,基于随机森林变量重要性分数,提出了一种新的加权K-均值基因聚类算法。首先,以微阵列表达数据中的样本为对象、基因为特征,训练随机森林分类器,计算每个基因的变量重要性分数;然后,以基因为对象、样本为特征、基因的变量重要性分数为权重进行K-均值聚类。在Leukemia、Breast、DLBCL等3个微阵列表数据集上进行了实验,结果表明:所提出的加权K-均值聚类算法与原始的K-均值聚类算法相比,类间距离与总距离的比值平均高出17.7个百分点,具有更好的同质性和差异性。
[Abstract]:In order to solve the problem of complex correlation between genes and genes in microarray expression data sets, a new weighted K-means gene clustering algorithm is proposed based on the importance fraction of random forest variables. First, using samples from microarray expression data as objects, genes as characteristics, training random forest classifiers to calculate variable importance scores for each gene; then, taking genes as objects, samples as characteristics. The importance fraction of gene variables is weighted to cluster the K-means. Experiments were carried out on the data sets of three microarray tables, such as LeukemiaI BreastDLBCL. The results show that the weighted K-means clustering algorithm is 17.7 percentage points higher than the original K-means clustering algorithm, and the ratio of inter-cluster distance to total distance is 17.7% higher than that of the original K-means clustering algorithm. Have better homogeneity and difference.
【作者单位】: 哈尔滨理工大学软件学院;黑龙江工程学院计算机科学与技术学院;
【基金】:黑龙江省教育厅2014年度科学技术研究面上项目(12541124)
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
3 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
4 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
5 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
6 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
7 程光;王贵锦;何礼;林行刚;;人体姿势估计中随机森林训练算法的并行化[J];计算机应用研究;2014年05期
8 于延;王建华;;基于云计算平台的随机森林算法的研究与实现[J];科技通报;2013年04期
9 刘永春;宋弘;;基于随机森林的乳腺肿瘤诊断研究[J];电视技术;2014年15期
10 杨帆;林琛;周绮凤;符长虹;罗林开;;基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用[J];系统工程理论与实践;2012年04期
相关会议论文 前2条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
相关硕士学位论文 前10条
1 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
2 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
3 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
4 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
5 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
6 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
7 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
8 丁然;基于随机森林大豆籽粒外观品质识别系统的设计与实现[D];东北农业大学;2015年
9 邱佳迪;基于随机森林的恶意移动应用动态检测方法研究[D];浙江工业大学;2015年
10 张兴;基于Spark大数据平台的火电厂节能分析[D];太原理工大学;2016年
,本文编号:1861103
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1861103.html