基于基因表达谱的样本分型与分类研究
发布时间:2020-12-08 05:39
基于基因芯片技术,可以同时观察在某一生命现象中成千上万个基因的动态表达水平,使得人们能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质;但是,通过基因芯片实验直接获得的是一个基因表达谱,其实际应用要通过对基因表达谱的生物信息学处理来实现,而样本分型与分类研究是其中的核心环节,为此,我们对这两方面进行了系统研究,分别构建了基于基因表达谱的样本分型系统Samcluster和分类系统Tclass。 在Samcluster系统中,整合了下列聚类算法:谱系聚类、K-平均值聚类和自组图聚类与变异系数计算和T-检验等基因变量选择方法,并提出了一致的样本分型概念,通过对四个基因表达谱的数据集COLON、LEUKEMIA72、LEUKEMIA38和OVARIAN的测试,结果表明:误判的样本数分别为5、1、0和0个,因此,基因水平的样本分型与样本的临床分型高度一致。 在Tclass系统中,整合了Fisher线性判别分析与全组合、逐步优化和Monte-Carlo模拟等基因变量选择方法,并提出了分类稳定性概念,通过对COLON等基因表达谱数据集的分析,结果表明:运用3到10个基因,可将不...
【文章来源】:中国人民解放军军事科学院北京市
【文章页数】:64 页
【学位级别】:博士
【部分图文】:
基于P值的基因个数与样本分类精度之间的关系
图11:基于Monte一C盯lo模拟的基因个数与分类精度的关系1.5、基于逐步优化选择的基因个数与分类精度的关系首先,从基因集合中选择分类效果最好的若干个基因,然后,以此若干个基因为基础,考虑其它基因与这些基因的组合,并以分类精度为指标,选择一定数目且给出较好分类效果的包含两个基因的集合,该过程反复进行,直到最后获得包含指定基因数目的基因集合。最后,对这些基因集合进行稳定性分析,找出最好的基因集合。图12即为用逐步优化方法进行基因变量选择时的基因个数与分类精度之间的关系。从图12中可以看出,当基因个数为6或7时,分类精度最高,约为95.0%。
定数目且给出较好分类效果的包含两个基因的集合,该过程反复进行,直到最后获得包含指定基因数目的基因集合。最后,对这些基因集合进行稳定性分析,找出最好的基因集合。图12即为用逐步优化方法进行基因变量选择时的基因个数与分类精度之间的关系。从图12中可以看出,当基因个数为6或7时,分类精度最高,约为95.0%。
本文编号:2904553
【文章来源】:中国人民解放军军事科学院北京市
【文章页数】:64 页
【学位级别】:博士
【部分图文】:
基于P值的基因个数与样本分类精度之间的关系
图11:基于Monte一C盯lo模拟的基因个数与分类精度的关系1.5、基于逐步优化选择的基因个数与分类精度的关系首先,从基因集合中选择分类效果最好的若干个基因,然后,以此若干个基因为基础,考虑其它基因与这些基因的组合,并以分类精度为指标,选择一定数目且给出较好分类效果的包含两个基因的集合,该过程反复进行,直到最后获得包含指定基因数目的基因集合。最后,对这些基因集合进行稳定性分析,找出最好的基因集合。图12即为用逐步优化方法进行基因变量选择时的基因个数与分类精度之间的关系。从图12中可以看出,当基因个数为6或7时,分类精度最高,约为95.0%。
定数目且给出较好分类效果的包含两个基因的集合,该过程反复进行,直到最后获得包含指定基因数目的基因集合。最后,对这些基因集合进行稳定性分析,找出最好的基因集合。图12即为用逐步优化方法进行基因变量选择时的基因个数与分类精度之间的关系。从图12中可以看出,当基因个数为6或7时,分类精度最高,约为95.0%。
本文编号:2904553
本文链接:https://www.wllwen.com/yixuelunwen/shiyanyixue/2904553.html
最近更新
教材专著