当前位置:主页 > 科技论文 > 基因论文 >

肿瘤亚型分析中针对基因表达数据差分进化特征选择算法的研究

发布时间:2020-08-28 00:18
【摘要】:生命的遗传物质DNA,我们可以将其蕴含的若干基因同时监测,利用芯片杂交技术和测序技术在单次试验中测度这些基因的表达水平,然后基于大数据进行科学分析研究,以帮助我们了解生命的奥秘。特别是二代测序技术的逐渐发展产生了大量的基因组数据,替代了 Sanger测序技术的地位。另外三代、四代测序技术的崭露头角体现了其大片段、单分子等测序特点所带来的优势。这些高通量测量技术在打破传统实验手段局限性的同时,其快速发展伴随着各种生物基因组数据的累积。另外大型、跨学科、跨国的研究项目相继启动及展开,其相应综合型生物数据库互联网平台为科学研究和精准医疗做出了巨大的贡献。因此,挖掘和解释数据的模式与规律成为当今的热点主题,特别是生物信息学中各种方法的应用,成功解决了分类、聚类、关联分析等相应研究的问题。另外机器学习算法对基因表达数据模式识别能较智能化的识别具有生物学意义的基因,并使其在实际生活应用中帮助生物医学临床的诊断和治疗。其中各种特征选择方法的相继发展成为高通量基因表达数据集模式识别和基因筛选的常规手段。虽然监督学习的特征选择方法在对大数据集的学习中十分高效、快捷,但对于像基因表达数据这样高维的数据来说,随着维数的增加其计算效率迅速降低甚至成为一个NP问题。优化搜索算法的发展成功解决了该问题,其中应用最多的启发式优化搜索算法如各种进化算法发展迅速。在进化算法家族中遗传算法、差分进化算法在其优化搜索上展现了其独特的竞争力,其中差分进化算法以其鲁棒性、快速收敛等特点迅速成为研究人员关注的焦点。因此我们在基因表达数据集上使用Ahmed Al-Ani等人提出的一种随机种群进化优化算法---差分进化特征选择算法,解决特征基因选择问题。然而发现该算法的缺点,由此我们改进该算法适用于基因表达数据集,其中将控制进化速率的尺度因子视为一种偏态分布,然后基于染色体空间结构变动的事实改进基因排列的固定方式以及使种群波动性进化。另外考虑到机器学习中基因表达数据集普遍的类不平衡特性,将训练数据集和测试数据集保持其类别构成比几乎相同,同时利用权重精度评估分类器模型的性能,由此缓解牺牲少数类的训练影响。算法优化的适应度函数我们考虑了不同特征基因子集大小的影响,根据Dashtban M.等人提出的罚分策略,将适应度函数由权重精度和罚分项组成。另外,我们从Laura Cantini等人发现microRNA-mRNA互作网络中潜藏着分子亚型而获得灵感,在对于肿瘤亚型的研究中,将算法优化的特征基因子集与肿瘤多类亚型探索联系起来,然后特征基因构建样本关系网络,利用极大平面过滤图算法PMFG过滤该网络,并使用拓扑图形划分算法初步探索肿瘤亚型划分的可行性。在本研究工作中改进的差分进化特征选择算法即模拟了宏观的物种进化方式,又模拟了微观分子间位置关系的演变,以实现算法更近似模拟研究对象的活动规律。在真实的数据应用上,表现出该算法高效的计算能力和良好的结果。而且在肿瘤亚型拓扑探索研究中,我们将特征基因作为媒介构建样本关系网络,其中每个基因都能高效判别。然后以对照组作为一个独立社团为基准即参照物,利用PMFG算法过滤网络,拓扑划分方法实现肿瘤亚型的划分,而相应的特征基因集值得进一步研究分析。虽然没有验证拓扑划分的生物学意义,但我们的研究工作在大数据肿瘤背景下提供了借鉴之处。
【学位授予单位】:南方医科大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R730;Q811.4
【图文】:

分布图,基因变异,尺度因子,系数


保证对其后GVCE邋(Gene邋Variable邋Coefficient邋Entropy)的计算使其值不为0。在逡逑本文中将GVCE称为基因变异系数摘,由于差分进化尺度因子的取值范围一般逡逑设置为0?1,因此将其最大值标准化使0<GVCE<1。图2-1展示了本文中使用的逡逑各个基因表达数据集尺度因子的分布情况即基因变异系数熵的分布图。逡逑22逡逑

过程图,轮盘,亲代,子代


逑在N除以D余数不为零的情况下,轮盘剩余空位用无穷大符号填充,整个轮盘逡逑的基因排列方式如图2-2,该图展示了模拟染色体上基因空间位置亲代g与子代逡逑g+1演变的过程,假设轮盘模板数D为2,基因数量N为31,轮盘上的数值代逡逑表基因对应的索引,红色的基因为算法优化选择的较优特征,上下两代遗传中逡逑保持基因位置的不变性。逡逑g逦g+1逡逑11逦i5逦20逦I逦nr逡逑26逦8逦irj逦TT逡逑1逦24逦1逦24逡逑逦邋逦邋逦邋逦逡逑21逦30逦s逦I逡逑3逦5逦TTl逦5逡逑I邋I逦I逡逑14逦22逦[\邋TH邋22逡逑hr逡逑一逦逦逦邋Genes邋X逦逦逦逡逑19逦IS逦]/邋1?邋I邋26逡逑25逦*逦'逡逑20逦6逦29逦31逡逑n逦23逦6逦r逡逑10逦16逦9逦23逡逑29逦13逦 ̄4|逦18逡逑12逦31逦12逦10逡逑28逡逑图2-2亲代与子代间轮盘模拟染色体上基因空间位置演变的过程。逡逑Fig邋2-2邋The邋roulette邋simulates邋the邋evolution邋process邋of邋the邋gene邋spatial邋position邋on邋chromosome逡逑between邋parent邋and邋offspring.逡逑基于前面轮盘模拟染色体片段的过程,初始种群随机从轮盘模版上产生,逡逑并用适应度函数评判比较产生初始亲本。在计算步骤进入差分进化计算之前,逡逑我们依据生物表型是由遗传和环境共同影响的理论基础,将种群中NP个特征基逡逑因子集的适应度函数值FitEiror进行比较

分类器,优化过程,数据集,能波


硕士学位论文逡逑带来的影响。最后算法终止观察整个种群中个体的质量,一定比初始阶段时期逡逑的种群个体要好,并且代与代之间存在差异。图2-3展示了两个高度类不平衡数逡逑据集在KNN和SVM分类器训练上的这一现象,图2-4展示了另外三个数据集逡逑在KNN、SVM和NB分类器上的种群波动进化现象,两图都表明该操作能波动逡逑性的影响种群的进化历程,另外对种群的进化整体而言,其呈现出向更优方向逡逑进化的发展趋势。逡逑Population邋Variability邋on邋BrainTumorl逡逑I逦T逦?晒逡逑J逦1逦+邋SVM逡逑i逡逑L逡逑GeneratKjns逡逑<b)逦Population邋Variability邋on邋Colon逡逑?逦Ciassifier逡逑I邋.逦—逡逑£逦SVM逡逑4逡逑i逡逑Generators逡逑图2-3利用KNN和SVM分类器训练的种群进化波动优化过程。(a)和(b)分别表示逡逑BrainTumorl和Colon数据集的结果。逡逑Fig邋2-3邋Population邋evolutionary邋volatility邋optimization邋process邋is邋trained邋by邋KNN邋and邋SVM逡逑classifiers,邋(a)邋and邋(b)邋indicate邋the邋results邋on邋BrainTumorl邋and邋Colon邋datasets,邋respectively.逡逑25逡逑

【参考文献】

相关期刊论文 前10条

1 杨健;蔡浩洋;;肿瘤生物信息学数据库[J];生物技术通报;2015年11期

2 桂起权;;解读系统生物学:还原论与整体论的综合[J];自然辩证法通讯;2015年05期

3 柳延虎;王璐;于黎;;单分子实时测序技术的原理与应用[J];遗传;2015年03期

4 李金昌;;大数据与统计新思维[J];统计研究;2014年01期

5 贾栋;贾小云;马瑞燕;;生物信息学数据库及查询[J];山西农业大学学报(自然科学版);2013年06期

6 王兴春;杨致荣;王敏;李玮;李生才;;高通量测序技术及其应用[J];中国生物工程杂志;2012年01期

7 陈岩;潘龙;;基因芯片技术研究进展[J];齐齐哈尔医学院学报;2011年17期

8 占爱瑶;罗培高;;DNA测序技术概述[J];生物技术通讯;2011年04期

9 计智伟;胡珉;尹建新;;特征选择算法综述[J];电子设计工程;2011年09期

10 王渝生;;破译生命“天书”——人类基因组计划20年[J];科学世界;2010年12期



本文编号:2806811

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2806811.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bed81***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com