基于Spark肾细胞癌差异表达基因筛选算法SAM的并行化实现研究
发布时间:2021-11-04 03:14
在全世界范围内,肾细胞癌是最常见的肿瘤之一。研究者们虽然对肾细胞癌致病原理和治疗方法进行了深入的研究,但是还没有找出疾病具体的发病原因和有效的治疗方法。随着科学家们对人类基因进行深入的研究,根据已有样本,筛选出与疾病相关的差异表达基因已经成为了目前基因学、医学的研究重点。从基因的角度,对于攻克疾病有着重大的意义。DNA芯片技术是目前对于基因进行研究的主要应用技术,研究者们可以通过使用该技术筛选出与疾病相关的差异表达基因。2001年,Virginia Tusher、Robert Tibshirani等人提出了SAM算法。SAM算法在既保证了可以筛选出较多的差异表达基因的同时又可以使得FDR保持在一个相对较低的水平。目前,随着大数据时代的来临,大数据分析技术Spark就此诞生。Spark技术采用了基于内存的计算方式,去除了计算过程中读取磁盘的操作,提供了快速的针对大数据处理的工具RDD,可以进行复杂的批处理、并行化计算,提高了运算速度,是目前对大数据分析的主要技术,并能够快速、高效的对大数据进行筛选分析。随着对人类基因的深入研究,研究者得到了大量基因表达数据,这就使得传统的单机模式串行化计...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
DNA芯片
图 1.2 中心法则录是指以DNA分子中的一条链作为模板,根据碱基配对原则合成mRN,翻译就是以 mRNA 为模板,最终合成蛋白质的过程。整个过程指的息由 DNA 转到 RNA 再转到蛋白质的过程。而组成简单的生命体至少 到 350 个基因[8]。然而,研究者们计算表明,目前人类的基因中仅仅基因被表达[9],成为了有用的组织器官,激活其他基因,或者调解人应等等。在生物的生命过程中,并不是所有的基因都同时表达,有些常情况下是表达的,而有些与生物生长过程相关的基因则要达到特定件才能发生表达,这部分基因就称为差异表达基因[10]。异表达基因是在不同的温度、湿度、物理刺激、化学刺激等条件下,达产生了不同的差异。也就是说,这部分基因是在特定情况下进行了在生物学、医学等学科的科研和临床的方面都有着巨大的意义。筛选
图 3.1 GSM 样本信息中第一列是基因的 ID 号,第二列是 GPL4866 平台定义的基因表达值,共141 行,每一行代表一个基因。实验所用的样本包括 45 个患肾细胞癌样本数据和 24 个正常样本数据,样本数据包括 17141 个基因,如图 3.2 所示的就是 GSE14762 系列提供的信息,也是实验所需的原基因表达谱数据。
【参考文献】:
期刊论文
[1]Spark平台下的凸包问题研究[J]. 李格非,马蔚吟,李力. 计算机工程与应用. 2018(22)
[2]Hadoop与Spark应用场景研究[J]. 冯兴杰,王文超. 计算机应用研究. 2018(09)
[3]应用生物信息学筛选肾透明细胞癌差异表达基因[J]. 熊垚祎,陈亮,王刚,王行环. 现代泌尿外科杂志. 2017(11)
[4]肾透明细胞癌相关基因及通路的筛选及生物信息学分析[J]. 王永志,王锦星,王行环. 现代泌尿外科杂志. 2017(11)
[5]浅析R语言并行计算在大数据分析中的应用[J]. 李加庆,刘燕. 电子测试. 2016(23)
[6]基于Hadoop和Spark构建可扩展的网络安全分析平台[J]. 赵科军,葛连升,刘洋,秦丰林. 华中科技大学学报(自然科学版). 2016(S1)
[7]基于Spark的大数据处理平台的搭建与研究[J]. 许礼捷. 电脑知识与技术. 2016(15)
[8]肾细胞癌的病理诊断与研究进展[J]. 陈铌,周桥. 现代泌尿外科杂志. 2016(03)
[9]显著性分析(SAM)方法在乳腺癌基因芯片数据分析中的应用[J]. 罗亚玲,蒋峥,张世强. 数学的实践与认识. 2015(01)
[10]大数据开源技术发展研究[J]. 吴韶鸿. 现代电信科技. 2014(08)
博士论文
[1]DNA/阳离子表面活性剂组装体的构筑与性能研究[D]. 徐路.山东大学 2016
硕士论文
[1]遗传疾病突变的数据挖掘分析[D]. 王畅畅.安徽大学 2017
[2]转移性肾细胞癌的研究进展[D]. 董栋栋.河北医科大学 2017
[3]乳腺癌基因表达谱数据的相关性研究[D]. 陈婉婷.南京医科大学 2015
[4]网络文件的分布式存储设计与实现[D]. 王君君.山东大学 2014
[5]基因差异表达若干分析算法的研究[D]. 田原.吉林大学 2012
[6]基于SAM的基因表达谱数据分析方法研究及应用[D]. 李运明.第四军医大学 2008
本文编号:3474885
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
DNA芯片
图 1.2 中心法则录是指以DNA分子中的一条链作为模板,根据碱基配对原则合成mRN,翻译就是以 mRNA 为模板,最终合成蛋白质的过程。整个过程指的息由 DNA 转到 RNA 再转到蛋白质的过程。而组成简单的生命体至少 到 350 个基因[8]。然而,研究者们计算表明,目前人类的基因中仅仅基因被表达[9],成为了有用的组织器官,激活其他基因,或者调解人应等等。在生物的生命过程中,并不是所有的基因都同时表达,有些常情况下是表达的,而有些与生物生长过程相关的基因则要达到特定件才能发生表达,这部分基因就称为差异表达基因[10]。异表达基因是在不同的温度、湿度、物理刺激、化学刺激等条件下,达产生了不同的差异。也就是说,这部分基因是在特定情况下进行了在生物学、医学等学科的科研和临床的方面都有着巨大的意义。筛选
图 3.1 GSM 样本信息中第一列是基因的 ID 号,第二列是 GPL4866 平台定义的基因表达值,共141 行,每一行代表一个基因。实验所用的样本包括 45 个患肾细胞癌样本数据和 24 个正常样本数据,样本数据包括 17141 个基因,如图 3.2 所示的就是 GSE14762 系列提供的信息,也是实验所需的原基因表达谱数据。
【参考文献】:
期刊论文
[1]Spark平台下的凸包问题研究[J]. 李格非,马蔚吟,李力. 计算机工程与应用. 2018(22)
[2]Hadoop与Spark应用场景研究[J]. 冯兴杰,王文超. 计算机应用研究. 2018(09)
[3]应用生物信息学筛选肾透明细胞癌差异表达基因[J]. 熊垚祎,陈亮,王刚,王行环. 现代泌尿外科杂志. 2017(11)
[4]肾透明细胞癌相关基因及通路的筛选及生物信息学分析[J]. 王永志,王锦星,王行环. 现代泌尿外科杂志. 2017(11)
[5]浅析R语言并行计算在大数据分析中的应用[J]. 李加庆,刘燕. 电子测试. 2016(23)
[6]基于Hadoop和Spark构建可扩展的网络安全分析平台[J]. 赵科军,葛连升,刘洋,秦丰林. 华中科技大学学报(自然科学版). 2016(S1)
[7]基于Spark的大数据处理平台的搭建与研究[J]. 许礼捷. 电脑知识与技术. 2016(15)
[8]肾细胞癌的病理诊断与研究进展[J]. 陈铌,周桥. 现代泌尿外科杂志. 2016(03)
[9]显著性分析(SAM)方法在乳腺癌基因芯片数据分析中的应用[J]. 罗亚玲,蒋峥,张世强. 数学的实践与认识. 2015(01)
[10]大数据开源技术发展研究[J]. 吴韶鸿. 现代电信科技. 2014(08)
博士论文
[1]DNA/阳离子表面活性剂组装体的构筑与性能研究[D]. 徐路.山东大学 2016
硕士论文
[1]遗传疾病突变的数据挖掘分析[D]. 王畅畅.安徽大学 2017
[2]转移性肾细胞癌的研究进展[D]. 董栋栋.河北医科大学 2017
[3]乳腺癌基因表达谱数据的相关性研究[D]. 陈婉婷.南京医科大学 2015
[4]网络文件的分布式存储设计与实现[D]. 王君君.山东大学 2014
[5]基因差异表达若干分析算法的研究[D]. 田原.吉林大学 2012
[6]基于SAM的基因表达谱数据分析方法研究及应用[D]. 李运明.第四军医大学 2008
本文编号:3474885
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3474885.html
最近更新
教材专著