全基因组关联分析中上位性检测算法的研究

发布时间:2021-08-08 00:56
  随着科技的进步和大数据时代的来临,各个研究领域都涌现出了大量的数据,这为计算机科学与技术领域的学者带来了前所未有的机遇和挑战,如何从庞大的数据中挖掘出我们需要的信息是目前信息科学领域的热点之一。全基因组关联分析的数据是一种高维的生物数据,往往包含数十万个SNP,以及数千个正常样本和患病样本,研究者们期望通过分析这种数据来揭示SNP与疾病之间的关系,从而推动对疾病的研究。复杂疾病是由多基因、多因素共同引起的常见疾病,近年来,全基因组关联分析已经成为研究复杂疾病的主要手段之一,在全基因组关联分析中检测上位性SNP组合对探索复杂疾病的解释、预防、治疗有着重要的意义。在全基因组关联分析中检测上位性是一种非常复杂的高维组合优化问题,近年来,研究者们提出了很多在全基因组关联分析中检测上位性的方法,本文将这些方法归纳为五类:穷举法、随机法、过滤法、模型法和进化法。这些上位性检测算法主要有以下四点问题,这些问题影响着上位性检测算法的精度与效率:其一,很多算法往往是基于单独的衡量SNP组合与疾病关系的函数设计的,当潜在致病模型不符合某些预设的假设时,用于衡量的函数会失效,从而限制了算法的精度和检测能力;... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:149 页

【学位级别】:博士

【部分图文】:

全基因组关联分析中上位性检测算法的研究


当前应用于上位性检测的算法

组织结构图,组织结构,意义,绪论


本文的组织结构如图1.2所示,其主要内容如下:第1章为绪论。首先介绍了本文的研究背景和意义,设计算法、开发软件在全基因组关联分析的数据集上检测上位性,对解释、预防、治疗复杂疾病有着重要的意义,然后,列举了近年来国内外在该领域的各种算法,分析了各种方法的优缺点和主要的难点。

DNA序列,例子,群体,DNA序列


图2.1举例说明了SNP的定义,在该图中,假设这六个DNA序列的片段分别来自于六个人的同一段DNA,在这六段DNA序列里,绝大多数碱基都完全一致,只有两个位置是不同的,这两个位置被定义为SNP1和SNP2,对于SNP1,在两个个体中的基因型为C,在其他四个个体中为G,这种差异最终可能导致这段DNA序列在不同的个体上,产生不同的蛋白质复合物,从而影响人的表型(身高、体重、对某种疾病的抗性等等)。此外,图2.1中所示的两个SNP都是二等位多态性,即一个SNP位点,只可能有两种碱基,SNP1只可能是C和G,而SNP2只可能是A和T,理论上是存在复杂的四等位多态性SNP的,即一个SNP位点的碱基型可能是A、C、G、T的任意一种,但三等位和四等位的SNP在实践中很少遇到,因此,在全基因组关联分析领域,普遍认为所有的SNP都是二等位多态性的,本文的研究亦是如此。SNP具有重要的研究意义[59-60],例如在图2.1中,由于SNP1拥有C和G两种基因型,那么在拥有不同基因型的两个群体上,这段DNA序列,可能就会最终生成完全不同的蛋白质复合物,一个群体可能拥有另一个群体没有的某种物质,从而在两个群体上体现出表型的差异,例如,如果这种物质可以促进身体的发育,那么两个群体之间的身高将有显著的差异。如果通过研究,可以证实一个SNP会对人类的未来造成什么样的影响,就可以通过后天的干预而尽量回避掉那些不良的后果,这对于提高人类的生活质量有着巨大的意义。


本文编号:3328881

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/3328881.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3d006***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com