基于GEO数据库的差异表达基因分析系统的构建
发布时间:2020-05-31 10:30
【摘要】:人类基因组计划的完成以及生物信息学等学科的快速发展,使得基因组学逐渐从基因测序揭示生命遗传信息的本质研究转移到从分子水平上对基因功能进行研究。生物信息学也随之由最初的基因组序列解读转移到基因表达谱数据所蕴含的生物学意义的挖掘上。生物信息学及相关学科的快速发展,使得大量的生物学数据呈现出指数式的增长模式。由NCBI创建的基因表达综合数据库(Gene Expression Omnibus,GEO),有着强大的收录和存储功能,涵盖多个生物学领域的高通量实验数据,为生物信息学研究者提供了大量与疾病相关的基因表达谱信息。如何有效地利用这些生物学数据,挖掘出其潜在的生物学价值,应用于基因分析、基因的表达与调控、疾病的诊断、药物筛选等研究,已经成为当今生物信息学研究的核心问题。通过对基因芯片提供的大量基因表达谱数据信息的深度挖掘和分析,有助于了解基因的功能以及基因间的相互作用关系。为了实现这一目标,最核心的环节就是要从庞大的基因表达谱信息中检测和分析病变组织和正常组织的表达存在显著性差异的基因。在功能基因组时代,为了推动生物信息学等学科的研究和发展,利用好GEO数据库基因芯片技术构建差异表达基因分析系统显得更为重要。目前,差异表达基因的分析技术主要有:差异显示PCR、代表性差异分析、消减杂交技术等,都需要进行复杂的筛选实验,耗时又费力。本文研究的差异表达基因分析系统是基于GEO数据库的基因表达谱数据运用Python代码自动获取全部疾病的基因表达谱信息,并进行标准化处理,结合统计学T检验模型计算基因表达值的差异关系,然后筛选出表达有差异的基因,为后续研究提供支持。其最大的特征是从单一疾病的差异表达基因分析上升到从系统角度自动化快速、准确、全面的筛选所有疾病的差异表达基因。目前,由于差异表达基因的筛选工作较为复杂且耗时费力,大多差异表达基因分析研究者都局限于对单一疾病的基因芯片表达数据的分析。因此,研究构建全疾病相关基因的差异表达基因分析系统,可以为广大生物信息学研究者提供精确地筛选结果,精简分析过程,提高资源利用率。同时也有助于推动差异表达基因分析技术和筛选结果的实际应用,差异表达基因的分析可以帮助更多的研究者在基因组水平上揭示疾病的发病机制,寻找新的靶向治疗位点,发现并鉴定导致耐药的新序列变异,不仅有助于寻找疾病的发病机理,还可以从基因组序列水平上进行疾病靶向治疗耐药机制的研究。
【图文】:
1.2 国内外相关研究综述1.2.1 GEO 数据库研究现状美国国立生物信息技术中心(National Center for Biotechnology Information,简称 NCBI)的高通量基因表达数据库(Gene Expression Omnibus,,简称 GEO)是目前世界上最全面的储存高通量基因表达丰度数据的开源数据库。GEO 数据库在创建初期主要是用于存储各个研究组织基因测序得到的高通量基因表达数据,随着研究者的而不断提交,逐渐收录并存档涉及多个物种,多种不同类型的高通量实验数据,在很多领域都发挥着重要作用。包括提供比较基因组分析、蛋白组分析、非编码 RNA、SNP(单核苷酸多态性)基因组以及基因组甲基化状态分析等。其生物数据量的不断递增,为生物信息学研究者深入探索生物医学奥秘提供了强有力的支撑。登录网址:https://www.ncbi.nlm.nih.gov/geo/。(如图 1-1)
图 1-2 GEO 数据库获取的部分原始数据本文研究的原始数据来源于冯清等[48]设计的基于Python编程的基因表达数据网络爬虫系统,自动抓取GEO数据库中的全部基因芯片数据,以MINiML文件下载,包含全部的平台、样本、系列信息的完整数据。截止到2017年5月,共下载GEO数据库原始数据84058个,格式为“.xml.tgz”的压缩包文件,大小为1.53TB。如图:1-2。1.5 论文框架第一章,提出了课题的研究背景和研究意义,对国内外在 GEO 数据库、基因芯片技术和差异表达基因分析方面的相关研究情况进行了综述,对差异表达基因分析的技术应用和研究意义进行解释。介绍了本文的创新点以及数据来源。对论文的文章结构进行了描述。
【学位授予单位】:山西医科大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13;Q78
本文编号:2689715
【图文】:
1.2 国内外相关研究综述1.2.1 GEO 数据库研究现状美国国立生物信息技术中心(National Center for Biotechnology Information,简称 NCBI)的高通量基因表达数据库(Gene Expression Omnibus,,简称 GEO)是目前世界上最全面的储存高通量基因表达丰度数据的开源数据库。GEO 数据库在创建初期主要是用于存储各个研究组织基因测序得到的高通量基因表达数据,随着研究者的而不断提交,逐渐收录并存档涉及多个物种,多种不同类型的高通量实验数据,在很多领域都发挥着重要作用。包括提供比较基因组分析、蛋白组分析、非编码 RNA、SNP(单核苷酸多态性)基因组以及基因组甲基化状态分析等。其生物数据量的不断递增,为生物信息学研究者深入探索生物医学奥秘提供了强有力的支撑。登录网址:https://www.ncbi.nlm.nih.gov/geo/。(如图 1-1)
图 1-2 GEO 数据库获取的部分原始数据本文研究的原始数据来源于冯清等[48]设计的基于Python编程的基因表达数据网络爬虫系统,自动抓取GEO数据库中的全部基因芯片数据,以MINiML文件下载,包含全部的平台、样本、系列信息的完整数据。截止到2017年5月,共下载GEO数据库原始数据84058个,格式为“.xml.tgz”的压缩包文件,大小为1.53TB。如图:1-2。1.5 论文框架第一章,提出了课题的研究背景和研究意义,对国内外在 GEO 数据库、基因芯片技术和差异表达基因分析方面的相关研究情况进行了综述,对差异表达基因分析的技术应用和研究意义进行解释。介绍了本文的创新点以及数据来源。对论文的文章结构进行了描述。
【学位授予单位】:山西医科大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13;Q78
【参考文献】
相关期刊论文 前4条
1 金辉;高艳彬;卢志阳;邹琼;史鹏伟;杨磊;;差异基因表达谱分析小鼠烧伤早期免疫细胞刺激反应的相关基因靶标[J];南方医科大学学报;2015年12期
2 周大琼;曹继华;任力锋;张阳德;;基因芯片数据库GEO与ArrayExpress的使用及比较分析[J];中国现代医学杂志;2014年12期
3 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
4 金敏;李君文;;基因芯片技术在环境微生物群落研究中的应用[J];微生物学通报;2008年09期
相关博士学位论文 前1条
1 谭兴国;胆囊癌差异表达基因分析及AXL、Prostasin在胆囊癌侵袭转移中的作用研究[D];中南大学;2011年
相关硕士学位论文 前2条
1 冯清;基于Python的基因表达数据网络爬虫研究与设计[D];山西医科大学;2017年
2 瞿新玲;基于知识库的多级软件重用技术研究与实现[D];哈尔滨工程大学;2009年
本文编号:2689715
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2689715.html
最近更新
教材专著