无监督特征选择算法及其在基因数据分析中的应用
发布时间:2020-03-17 23:34
【摘要】:癌症疾病作为困扰人类医学的难题长期无法取得实质性的突破,原因在于人类无法从成千上万的致病基因中找到罪魁祸首,在科技飞速发展与数据爆发式增长的时代背景下,利用DNA微阵列的技术手段来突破该瓶颈迎来的新的契机。虽然通过基因芯片实验采集的数据具有更加准确和全面的优良特性,但是相应地也带来了数据分析上的挑战,主要有以下两个方面的因素:一是与特定疾病无关或冗余的信息占了较高比例,为数据处理带来了较高的复杂度;二是由于某些疾病的有效样本的数量偏少,为数据分析带来了一定的障碍。基于基因表达谱数据具有的这些特性,本文应用特征选择算法对数据进行处理与分析,以最大程度地保证结果的准确性与可靠性。特征选择算法作为分类任务中预处理的重要方法成为了当前的热点领域之一,并被广泛地应用于医疗、图像和文本数据处理领域。特征选择算法有两个大的分类,分别是有监督型特征选择算法以及无监督型特征选择算法,区别于两者最大的标志是有监督型特征选择算法具有与类标信息的相关性,而无监督型特征选择算法则不具备这一特性。由于在实际问题中存在大量类标信息缺失的数据,本文将对无监督型特征选择算法展开如下研究:(1)将基于密度峰值的无监督特征选择算法应用于基因数据,首先对原始数据采用十折交叉验证划分数据集,然后针对基因数据的高维特性,在训练集上进行基因排序并选择,对预选择后的基因用该算法挑选代表基因构成被选基因子集,接着分别使用SVM和KNN分类器训练模型,在测试集上对所得基因子集进行质量评价。由实验结果表明,该算法对基因数据的处理具有良好的适用性。(2)由于被选基因子集的质量与距离度量的选取方式直接相关,本文将运用四种不同的距离度量标准来对第三章所提算法的基因代表性和区分度进行计算,并且提出了一种更注重基因代表性的基因重要性度量准则。通过在三个数据集上比较这四种不同的距离度量方法下所选取的基因子集的平均准确率、灵敏度、特异度等指标表明这种基因重要性度量准则是有效的。
【图文】:
由最初线性可分的二类问题直至延伸到线性不可分问题和非线性回归问题来进行逡逑建模。针对线性不可分的样本,可以通过引进的核函数,将输入数据变换到一个逡逑高维空间,,如图2-2所示[6G],在特征空间求解一个线性约束二次规划,得到一个逡逑可以将样本线性分割且具有最大间隔的分类超平面。逡逑/邋\逡逑*邋\逡逑t逦\逡逑/逦>逡逑I逦\逡逑?逦0逦A逦?逡逑1邋1逦I逦%逡逑0邋°邋#邋0邋\逡逑图2-2核函数的高维映射原理逡逑Fig.2-2邋High邋dimensional邋mapping邋principle邋of邋kernel邋function逡逑支持向量机SFM分为线性和非线性SFM两种。逡逑(1)线性支持向量机逡逑针对于线性可分的二分类问题,旨在寻找能够将两类不同样本分离且可逡逑以保证两种分类间隔距离最大的分类超平面。给定线性可分的两类数据集逡逑£)邋=邋{(;(:1,少1),(;(:2,}2),_..,(:<:,,乃)},且'<啊醲嶝嗑荆荆嗉辏鉖
本文编号:2587860
【图文】:
由最初线性可分的二类问题直至延伸到线性不可分问题和非线性回归问题来进行逡逑建模。针对线性不可分的样本,可以通过引进的核函数,将输入数据变换到一个逡逑高维空间,,如图2-2所示[6G],在特征空间求解一个线性约束二次规划,得到一个逡逑可以将样本线性分割且具有最大间隔的分类超平面。逡逑/邋\逡逑*邋\逡逑t逦\逡逑/逦>逡逑I逦\逡逑?逦0逦A逦?逡逑1邋1逦I逦%逡逑0邋°邋#邋0邋\逡逑图2-2核函数的高维映射原理逡逑Fig.2-2邋High邋dimensional邋mapping邋principle邋of邋kernel邋function逡逑支持向量机SFM分为线性和非线性SFM两种。逡逑(1)线性支持向量机逡逑针对于线性可分的二分类问题,旨在寻找能够将两类不同样本分离且可逡逑以保证两种分类间隔距离最大的分类超平面。给定线性可分的两类数据集逡逑£)邋=邋{(;(:1,少1),(;(:2,}2),_..,(:<:,,乃)},且'<啊醲嶝嗑荆荆嗉辏鉖
本文编号:2587860
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2587860.html