当前位置:主页 > 科技论文 > 自动化论文 >

面向肿瘤基因组学数据的分类算法研究

发布时间:2025-03-20 00:53
  肿瘤是严重威胁人类生命健康的主要疾病之一,其发生发展是多个基因逐步改变的多阶段过程,尽早确诊能够有效防止肿瘤进一步恶化,提高患者的生存机率。基因芯片技术能够检测细胞中大量基因的表达水平,对肿瘤基因表达谱数据进行正确分类将有助于肿瘤的早期确诊和治疗。肿瘤基因表达谱数据通常具有高维度、小样本以及类别不平衡的特点,对其进行有效的特征提取并构建考虑类别不平衡的分类模型对提高肿瘤分类准确率十分重要。本文主要从以下两个方面开展研究:(1)针对数据的高维小样本特点,采用不同的流形学习方法提取高维数据的局部和全局特征,获取数据中潜在的低维流形,达到去除冗余和数据降维的目的;并构建高斯过程分类器对得到的低维特征进行分类;实验结果表明,等距特征映射算法和基于监督的局部线性嵌入算法得到的低维流形能够更加完整地保留数据结构特征,结合流形学习的高斯过程分类方法有效地提高了肿瘤基因表达数据的分类准确率。(2)针对数据的类别不平衡特点,通过对似然函数赋予与样本数量相关的权重来平衡各类样本的重要性,以增加少数类样本的分类决策权。实验结果表明,该方法有效保留了数据的原始分布特性,一定程度上解决了由于类别不平衡导致的分类结...

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

图2-1SVM中分类超平面示意图

图2-1SVM中分类超平面示意图

理论基础及相关工作132.3分类算法理论基础分类器的作用是利用已知标签的样本数据或者特征来学习分类规则,通过寻找数据到样本标签之间的映射关系来实现未知标签数据的类别预测。选取合适的分类器对分类结果有很大的影响,本节主要介绍支持向量机和人工神经网络两种常用于基因表达谱数据的分类算法....


图2-2三层BP神经网络结构

图2-2三层BP神经网络结构

西安理工大学工程硕士专业学位论文14niytsyxxKyiniiiriirjijijiji,,2,1,00..,21max111,)((2-20)其中),(jixxK为核函数。将式(2-20)转化为求最小值问题,通过最小优化算法(SMO)解得*,进一步求解w和b,最终得到最优超平....


图3-1不同特征提取算法Fig.3-1J-valuecurvescorrespondingtod

图3-1不同特征提取算法Fig.3-1J-valuecurvescorrespondingtod

西安理工大学工程硕士专业学位论文24效果最差的是线性降维方法对应的低维数据;同理,Sonar数据集对应得几种低维数据中,数据为SLLE对应的低维流形最适用于分类,其次为线性降维方法。图3-1(b)为三个肿瘤数据集对应的J值折线图,可以看出,对三个肿瘤数据集采用不同算法进行特征提取....


图3-2不同特征提取算Fig.3-2Accuracyofdifferentfeaturee

图3-2不同特征提取算Fig.3-2Accuracyofdifferentfeaturee

嵌入低维流形的肿瘤基因表达谱数据分类算法25(c)Coloncancer数据集(d)Leukemia数据集图3-2不同特征提取算法在各数据集上的准确率Fig.3-2Accuracyofdifferentfeatureextractionalgorithmsondifferentd....



本文编号:4037123

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4037123.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ce398***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com