针对肿瘤分期诊断问题的整合特征选择算法研究
发布时间:2021-06-22 21:20
当今社会,肿瘤是死亡率最高的疾病之一。目前尚未有能够完全根治的办法,在临床医学上也只能从预后检查治愈的程度,而且不能够保证不再复发。随着生物信息技术的发展以及医疗水平的提高,依托于计算机存储技术和芯片技术的发展,越来越多的生物医疗数据得以保存。通过计算机技术、机器学习、数据挖掘等挖掘有用的医疗数据信息,对于精准的预测肿瘤的恶化程度,进一步的治疗肿瘤是目前研究的热点。人类的生命机制有着复杂的调控机制,每一个生命活动都有着成千上万的基因,每个不同的生命过程都产生着不同的中间产物。常见的针对这些过程的数据包括甲基化组学数据、转录组学数据、蛋白质组学数据等。本文使用前两种组学的数据。在生物体内,甲基化在经历过酶的催化之后进行重金属的修饰、基因表达过程的控制、蛋白质功能的控制以及核糖核酸的加工等一系列的功能。转录组则是DNA转录的产物,用于研究特定的细胞以及器官的各类核糖核酸的产量以及类型。现有研究表明,甲基化组学数据以及转录组学数据和肿瘤的产生、发育有着密切的关系。对于肿瘤的分期来说,研究这些数据有着十分重要的作用。然而,肿瘤的组学数据通常具有样本数少基因数目多的特点——“大p小n”的分布特点...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
特征选择算法的基本框架
吉林大学硕士学位论文4第2章相关的背景知识2.1数据预处理在数据科学中,数据预处理是一个关键步骤。许多算法的前提假设就是数据特征都是零均值或者是在同一阶数的方差。如果某个特征的方差比其他数据集大了几个数量级别,那么这个特征就会在机器学习当中占据主导地位,这就会导致学习到的模型差强人意。2.1.1缺失值处理缺失值的产生通常是由于粗糙数据中由于缺失信息导致数据的一些属性不完全,导致部分属性值为空。缺失值的处理通常有两种方法:删除法和填充法。如果一个样本或者变量的属性包含的缺失值超过了一定的比例,比如超过样本的一半或者某个百分比,我们就可以认为这个属性包含的信息量是有限的。强行的填充过量的人工添加信息会使得建模效果受到较大的影响。这种情况下,我们通常删除缺失值。填充法包含随机填充、均值填充、最相似填充、回归填充[10]、K近邻填充[11]等方法。随机填充通常是选择一个随机数来进行填充,这种方法没有考虑到数据的特性,会产生异常值等,一般不建议使用。均值填充默认数据分布是相同的。缺失值应满足整体的数据分布,可以采用平均数、中位数等添补。。最相似填充是在数据集中找到一个与它最相似的样本,然后用这个样本的值对缺失的值进行填充。回归填充是把缺失值作为目标变量,其它值作为训练,预测生成的值作为缺失值。K近邻填充则是利用K近邻算法,选择缺失值最近的K个近邻点,然后根据离缺失值最近的K个近邻点进行加权来估计缺失值。2.1.2数据的标准化通常来说,标准化是让不同数据指标处于同一的数量级别,有一定的可比性,从而提高机器学习模型的准确性。对于线性模型来说,数据标准化后,寻找最优解的过程会变得较为平缓,更容易找到最优解。图2.1归一化
第2章相关的背景知识5图2.2未归一化如图2.1是做了归一化,而图2.2未做归一化。图中红色的线为等高线,蓝色的线是梯度下降来进行求最优解的过程,中心的圆或椭圆为最优解。图2.2未归一化处理的求解过程呈现Z字形,而图2.1为归一化处理后求解的过程呈现出的1字形,对比可以明显的看出,归一化后等高线更圆,求解的梯度更快的到达圆心,收敛速度更快,更容易到达圆心。因此,归一化能够使得寻找最优解的过程更加平缓,速度更快。下面介绍两种使用最普遍的归一化方法:Z分数归一化和最小最大归一化。Z-Score归一化也叫做0-1标准化,这是因为它使用平均数和标准差来缩放数据,缩放之后的数据满足正态分布。也就是说缩放之后的数据满足均值为0,标准差为1。缩放之后的数据处于同一数量级的范围内,使得各个数据之间具有可以比较的特性。它的计算公式如公式2.1所示:=…………..…………………(2.1)在上述的公式当中,x为数据特征的观测值,为数据特征的均值,为标准差,为缩放后的数据。这个方法通常要求原始的数据分布可以近似为高斯分布。如果不是这样的话,采用缩放调整之后的数据训练的模型的性能会很差。通常在分类和聚类的一些算法当中,需要使用特征之间的距离来衡量相似程度的时候,或者说是需要使用PCA算法对数据降维的时候,该方法呈现的效果相对较好。Min-Max归一化(Min-MaxNormalization)通常也称作最大最小值标准化,也可以称作离差标准化,这种方法的缩放效果是使得数据的值映射到[0,1]之间,它计算方法如公式2.2所示:=min()max()min()……..…………………(2.2)对于去除量纲和数据的取值范围影响,该方法是最简单的且保留了数据的原始存在关系的方法。但是这种处理模式下,在数据比较集中且存在离群点的?
【参考文献】:
期刊论文
[1]磁共振成像对直肠癌分期和侧切缘受累的预测价值[J]. 姜金波,戴勇,张晓明,李传福,靳祖涛,毕冬松,孙靖中. 中华医学杂志. 2006(14)
博士论文
[1]异构健康大数据诊疗模型的特征优化算法研究与开发[D]. 冯欣.吉林大学 2019
本文编号:3243550
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
特征选择算法的基本框架
吉林大学硕士学位论文4第2章相关的背景知识2.1数据预处理在数据科学中,数据预处理是一个关键步骤。许多算法的前提假设就是数据特征都是零均值或者是在同一阶数的方差。如果某个特征的方差比其他数据集大了几个数量级别,那么这个特征就会在机器学习当中占据主导地位,这就会导致学习到的模型差强人意。2.1.1缺失值处理缺失值的产生通常是由于粗糙数据中由于缺失信息导致数据的一些属性不完全,导致部分属性值为空。缺失值的处理通常有两种方法:删除法和填充法。如果一个样本或者变量的属性包含的缺失值超过了一定的比例,比如超过样本的一半或者某个百分比,我们就可以认为这个属性包含的信息量是有限的。强行的填充过量的人工添加信息会使得建模效果受到较大的影响。这种情况下,我们通常删除缺失值。填充法包含随机填充、均值填充、最相似填充、回归填充[10]、K近邻填充[11]等方法。随机填充通常是选择一个随机数来进行填充,这种方法没有考虑到数据的特性,会产生异常值等,一般不建议使用。均值填充默认数据分布是相同的。缺失值应满足整体的数据分布,可以采用平均数、中位数等添补。。最相似填充是在数据集中找到一个与它最相似的样本,然后用这个样本的值对缺失的值进行填充。回归填充是把缺失值作为目标变量,其它值作为训练,预测生成的值作为缺失值。K近邻填充则是利用K近邻算法,选择缺失值最近的K个近邻点,然后根据离缺失值最近的K个近邻点进行加权来估计缺失值。2.1.2数据的标准化通常来说,标准化是让不同数据指标处于同一的数量级别,有一定的可比性,从而提高机器学习模型的准确性。对于线性模型来说,数据标准化后,寻找最优解的过程会变得较为平缓,更容易找到最优解。图2.1归一化
第2章相关的背景知识5图2.2未归一化如图2.1是做了归一化,而图2.2未做归一化。图中红色的线为等高线,蓝色的线是梯度下降来进行求最优解的过程,中心的圆或椭圆为最优解。图2.2未归一化处理的求解过程呈现Z字形,而图2.1为归一化处理后求解的过程呈现出的1字形,对比可以明显的看出,归一化后等高线更圆,求解的梯度更快的到达圆心,收敛速度更快,更容易到达圆心。因此,归一化能够使得寻找最优解的过程更加平缓,速度更快。下面介绍两种使用最普遍的归一化方法:Z分数归一化和最小最大归一化。Z-Score归一化也叫做0-1标准化,这是因为它使用平均数和标准差来缩放数据,缩放之后的数据满足正态分布。也就是说缩放之后的数据满足均值为0,标准差为1。缩放之后的数据处于同一数量级的范围内,使得各个数据之间具有可以比较的特性。它的计算公式如公式2.1所示:=…………..…………………(2.1)在上述的公式当中,x为数据特征的观测值,为数据特征的均值,为标准差,为缩放后的数据。这个方法通常要求原始的数据分布可以近似为高斯分布。如果不是这样的话,采用缩放调整之后的数据训练的模型的性能会很差。通常在分类和聚类的一些算法当中,需要使用特征之间的距离来衡量相似程度的时候,或者说是需要使用PCA算法对数据降维的时候,该方法呈现的效果相对较好。Min-Max归一化(Min-MaxNormalization)通常也称作最大最小值标准化,也可以称作离差标准化,这种方法的缩放效果是使得数据的值映射到[0,1]之间,它计算方法如公式2.2所示:=min()max()min()……..…………………(2.2)对于去除量纲和数据的取值范围影响,该方法是最简单的且保留了数据的原始存在关系的方法。但是这种处理模式下,在数据比较集中且存在离群点的?
【参考文献】:
期刊论文
[1]磁共振成像对直肠癌分期和侧切缘受累的预测价值[J]. 姜金波,戴勇,张晓明,李传福,靳祖涛,毕冬松,孙靖中. 中华医学杂志. 2006(14)
博士论文
[1]异构健康大数据诊疗模型的特征优化算法研究与开发[D]. 冯欣.吉林大学 2019
本文编号:3243550
本文链接:https://www.wllwen.com/yixuelunwen/zlx/3243550.html