当前位置:主页 > 医学论文 > 流行病论文 >

遗传流行病统计分析软件SAGE的开发与应用

发布时间:2018-08-12 16:11
【摘要】: 背景与研究目的 遗传流行病学(genetic epidemiology)是近年来发展起来的一门边缘热门学科。主要是研究不同人群中影响疾病分布的遗传因素和环境因素,并提出合理预防措施的学科。它的理论基础是群体遗传学和流行病学,主要是应用流行病学群体资料收集和处理的方法,以及分子遗传学的实验手段,借助生物统计学的有关原理和方法来研究和探索遗传因素和环境因素对疾病的单独作用以及他们对疾病的联合作用。随着国际人类基因组测序联合体对人类基因组DNA完成序列的分析,在人类基因组测序过程中随着多态性序列标志越来越被人们所发现,寻找疾病基因的进度日益加快。对多基因疾病的研究已成为当前和今后一段相当长时间内倍受关注的焦点。 迄今为止,对符合孟德尔遗传规律的单基因遗传病已经建立了一套行之有效的研究体系并定位克隆了近千个致病基因。但对于多基因疾病由于其复杂的表型性状,这些复杂的性状虽然表现出一定的家族聚集倾向性,但并不完全符合孟德尔遗传规律,所以在其易感基因的定位和遗传分析中仍存在很多问题,并成为近年来医学遗传学和基因研究的难点和热点。而在研究人类遗传相关疾病的研究过程中,利用家系结构和群体调查资料进行连锁分析、关联分析或连锁不平衡分析已成为基因定位的重要方法。但是由于遗传学数据庞大,分析繁琐,结构复杂,用一般的统计学方法及软件往往难以充分利用资料的信息。需要专门的遗传统计软件进行分析,目前遗传流行病学统计分析软件虽然较多,但是其综合分析能力不强。 如对于参数连锁分析可供选择的软件有FASTLINK,LINKAGE,VITESSE等,对于非参数连锁分析可供选择的软件有GENEHUNTER,MERLIN,MELINK等。目前国内遗传流行病学研究正处于发展阶段,在研究中大部分使用的是国外的遗传统计软件如LINKAGE,GENEHUNTER等,国内已有的遗传统计软件为DOS系统的PPAP,,但使用人的不多。由于我国人口庞大,人口学资料丰富,是一个研究人类遗传信息很好的资源宝库。目前国内的情况是统计学与遗传学没有很好的结合,使得遗传学者在信息收集及资料分析时存在不少问题,如对于具体收集哪方面的资料,样本量大小及使用何种遗传统计方法等。使得资料信息不能得到充分利用,造成信息巨大的浪费,实在是一件令人遗憾的事。 由于多基因疾病其表型与基因型非严格一一对应关系,因此在分析资料时,需用到多种分析方法,这也使得目前一些专门用于分析某种遗传分析的软件越来越暴露其应用的局限性,且国外软件一般为英文软件,这使得遗传学者要浪费大量的人力和物力去学习这些软件,因此急需一个功能强大的综合性遗传统计软件。而遗传流行病学统计分析软件包SAGE(Statistical Analysis for Genetic Epidemiology)恰好满足我们的需求。它是一个功能强大,能进行各类遗传统计分析的综合性软件,由美国人类遗传分析资源(Human Genetic Analysis Resource,HGAR)所创编。HGAR成立于美国Cleveland市Case Western ReserveUniversity(CWRU)流行病学和统计系,由美国公共卫生服务部门、NIH国立研究资源中心资助,该软件由著名的统计遗传学家R.C.Elston及其工作小组于1987研发而成的,该软件随着时间一直不断更新版本,由刚开始的1.0版本到目前的5.3.0版本,其功能也在不断增强之中,其在遗传流行病学分析中的地位越来越受到重视。 研究方法 通过SAGE软件自带的5个example文件作为原始家系数据文件,导入各个功能模块进行详细分析,该SAGE共有1个自定义模块及18个功能模块,共分为18个章节进行分别讲述。其中18个功能模块分别以以下4项内容进行表述: 第1章:SAGE概述。给出了SAGE软件的基本功能模块的输入输出文件、运行环境和特点等信息。用户安装此软件时需注意其对系统的要求。 第2章:SAGE数据文件的建立、编辑与整理。主要介绍了数据文件的3种建立方式,及项目的导入、导出和重命名等内容。重点是数据文件的建立及导入。 第3章:用户自定义功能模块。主要介绍了如何创建基因组数据文件和建立新变量。重点内容是建立新的变量。 第4章:SAGE的一般统计分析(PEDINFO)。主要介绍了PEDINFO的功能、原理及如何操作及对结果的解释。重点内容是对结果的解释。以下的14个章节均是从模块的功能、原理、操作过程及主要输出结果等4个方面进行阐述。 第5章:非孟德尔遗传统计分析(MARKERINFO)。主要用于检测家系数据中的非孟德尔遗传信息,帮助用户对非一致性数据的检测。前提是对孟德尔遗传定律有所了解。 第6章:亲属对的重新分类(RELTEST)。通过基因组多位点扫描数据对原有的亲属对进行重新归类,主要是基于染色体血缘一致(IBD)等位共享原理。重点是对IBD及IBS有所了解,及对结果的解释。 第7章:等位基因频率估计(FREQ)。估计已知家系结构的个体等位基因频率及产生标记位点描述文件。产生的位点文件可以用于GENIBD,MLOD及其他SAGE程序。该模块的最主要作用在于输出位点文件及可输出近亲系数。 第8章:等位基因关联或者数据性状传递不平衡检验(ASSOC)。主要用于估计家系数据文件中性状与协变量,此协变量可通过标记表型转换而来,估计家庭残差相关系数或者遗传度估计。需要注意的是对数据的两种转化的选择。 第9章:家庭相关性分析(FCOR)。主要用于估计家系中所有相关对的多变量相关关系及他们的渐进标准误。重点是对家庭内相关对相关关系的结果的解释。 第10章:混合分离分析与复杂分离分析(SEGREG)。主要用于在所提供的家庭相关关系基础上检测和选定分离分析模型。其特性可为连续性,二分类特性或者年龄相关的二分类特性,产生可用于基于模型的连锁分析的外显率文件。重点是对不同特性所适合的模型的选择的设定。 第11章:血缘同一等位基因概率产生模块(GENIBD)。此功能模块主要用于通过多种算法协调计算各种家系数据文件中不同相关对来产生单位点和多位点的血缘一致等位基因分布。重点是不同资料需选用不同的模型。 第12章:年龄相关发作分析(AGEON):适用于同时比较受累相关对与非受累相关对的年龄发作相关分布资料,允许通过协变量调整均值,方差或者偏度分布。需要注意的是如何合并资料。 第13章:单体型分析(DECIPHER):主要是用于对于人群中常染色体或者X性染色体的单体型频率的最大似然估计。前提是对单体型有所了解。 第14章:基于模型的单位点连锁分析(LODLINK)。主要用于计算基于模型的主要特性与各个位点间的两位点间的LOD值,主要特性可以是任何符合孟德尔传递的标记或者其他特性。重点是对主要特性及从SEGERG程序所产生的外显率文件的命名。 第15章:基于模型的多位点连锁分析(MLOD)。主要用于计算基于模型的小家系或者大家系的多位点间的连锁分析。重点是基因组数据文件的产生及认定主要特性。 第16章:患病同胞对连锁分析方法(SIBPAL)。可以是单位点或者多位点的共享血缘一致等位基因信息,并且根据多位点基因同时使用二分类变量和连续性变量,同时包括上位交互效应和协变量效应。重点是不同特性需进行相应的设定。 第17章:受累同胞对的Lods连锁分析(LODPAL)。程序进行连锁分析是基于受累同胞对的Lods记分值,目前执行一般条件logistic回归模型。需注意对效能的设定。 第18章:传递不平衡检验(TDT)。程序中的TDT则是基于传递不平衡的基础模型基础上建立的用于分析前提是已知连锁不平衡的情况下的标记位点与疾病位点的连锁关系,其疾病特性为二分类变量。前提是对TDT的原理的掌握。 结果 通过此论文,使得遗传学者可以充分利用其遗传资料进行遗传统计分析,节省人力和物力,学习该软件可以指导遗传学者收集遗传资料,尽可能的利用遗传资料,从而加快遗传流行病学的发展。
[Abstract]:Background and research objectives
Genetic epidemiology is a frontier hot subject developed in recent years. It mainly studies the genetic and environmental factors that affect the distribution of diseases in different populations and puts forward reasonable preventive measures. Its theoretical basis is population genetics and epidemiology, mainly the application of epidemiological population data. Methods of collection and processing, as well as experimental methods of molecular genetics, with the help of relevant principles and methods of biostatistics, to study and explore the individual effects of genetic and environmental factors on diseases and their combined effects on diseases. With the discovery of polymorphic sequence markers in the process of human genome sequencing, the search for disease genes is accelerating. The study of polygenic diseases has become the focus of attention for a long time.
Up to now, a set of effective research systems have been established for single-gene genetic diseases which conform to Mendelian inheritance and nearly one thousand pathogenic genes have been cloned. However, for polygenic diseases, these complex traits show a certain tendency of family clustering, but they do not fully conform to Mendelian. Delphi inheritance law, therefore, still has many problems in the mapping and genetic analysis of susceptible genes, and has become a difficult and hot spot in medical genetics and gene research in recent years. Balance analysis has become an important method for gene mapping. However, due to the huge genetic data, complicated analysis and complex structure, it is difficult to make full use of the information of the data with general statistical methods and software. Analytical ability is not strong.
For example, FASTLINK, LINKAGE, VITESSE and GENEHUNTER, MERLIN, MELINK are available for parametric linkage analysis, while GENEHUNTER, MERLIN and MELINK are available for non-parametric linkage analysis. Because of the huge population and abundant demographic data, our country is a good resource repository for studying human genetic information. At present, there is no good combination of statistics and genetics, which makes geneticists in information collection and data analysis. There are a lot of problems, such as what kind of data to collect, sample size and what kind of genetic statistics method to use. It is a pity that the information can not be fully utilized, resulting in a huge waste of information.
Due to the non-strict one-to-one correspondence between the phenotype and genotype of polygenic diseases, it is necessary to use a variety of analytical methods in the analysis of data. This also makes some special software for genetic analysis more and more expose the limitations of its application, and foreign software is generally English software, which makes geneticists waste a lot of money. The amount of manpower and material resources to learn these software, so the urgent need for a powerful comprehensive genetic statistics software. And genetic epidemiology statistical analysis software package SAGE (Statistical Analysis for Genetic Epidemiology) just meets our needs. HGAR, created by Human Genetic Analysis Resource (HGAR), was founded in the Department of Epidemiology and Statistics of Case Western Reserve University (CWRU) in Cleveland, USA. It was funded by the US Public Health Service and the NIH National Research Resource Center. The software was developed by R.C. Elston, a famous statistical geneticist. Developed in 1987 by its team, the software has been continuously updated over time, from the initial version 1.0 to the current version 5.3.0, and its functions are also increasing, and its position in genetic epidemiological analysis is getting more and more attention.
research method
Through the introduction of five examples files from SAGE software as original data files, each function module is analyzed in detail. The SAGE has one custom module and 18 function modules, which are divided into 18 chapters.
Chapter 1: Overview of SAGE. The input and output files, running environment and characteristics of the basic functional modules of SAGE software are given. Users should pay attention to the system requirements when installing the software.
Chapter 2: Establishment, editing and sorting of SAGE data files. It mainly introduces three methods of establishing data files, the import, export and renaming of projects, etc.
Chapter 3: User-defined functional modules. It mainly introduces how to create genomic data files and create new variables. The emphasis is to create new variables.
Chapter 4: General Statistical Analysis of SAGE (PEDINFO). It mainly introduces the function, principle and operation of PEDINFO, and explains the results. The emphasis is on the explanation of the results. The following 14 chapters are from the function, principle, operation process and main output results of the module.
Chapter 5: Non-Mendelian Genetic Statistical Analysis (MARKERINFO). Mainly used to detect non-Mendelian genetic information in the family coefficient data, to help users detect inconsistent data. The premise is to understand Mendelian genetic law.
Chapter 6: Reclassification of Relative Pairs (RELTEST). The original relatives are reclassified by genomic multilocus scanning data, mainly based on the principle of chromosomal consanguinity (IBD) allele sharing. The emphasis is on understanding IBD and IBS, and explaining the results.
Chapter 7: Allele Frequency Estimation (FREQ). Estimation of individual allele frequencies of known family structures and generation of marker site descriptors. The resulting site files can be used in GENIBD, MLOD and other SAGE programs. The main functions of this module are to output site files and output intimacy coefficients.
Chapter 8: Allelic Association or Data Trait Transfer Disequilibrium Test (ASSOC). It is mainly used to estimate the family coefficient. The covariate can be transformed from the marker phenotype to estimate the family residual correlation coefficient or heritability.
Chapter 9: Family Correlation Analysis (FCOR). It is mainly used to estimate the multivariate correlations of all related pairs in a family and their asymptotic standard errors.
Chapter 10: Mixed Separation Analysis and Complex Separation Analysis (SEGREG). Mainly used to detect and select separation analysis models on the basis of family-related relationships provided. Its characteristics can be continuous, binary or age-related binary classification characteristics, producing an explicit rate file for model-based linkage analysis. Selection of suitable models for different characteristics.
Chapter 11: GENIBD. This function module is mainly used to coordinate the calculation of various family coefficients through a variety of algorithms to produce a uniform allele distribution of units and multiple loci. The emphasis is on different models for different data.
Chapter 12: Age-related seizure analysis (AGEON): Applies to the simultaneous comparison of age-related distribution data between affected and non-involved pairs, allowing for covariate adjustment of mean, variance, or skewness distributions.
Chapter 13: Haplotype Analysis (DECIPHER): Mainly used to estimate the maximum likelihood of haplotype frequencies of autosomal or X-sex chromosomes in a population.
Chapter 14: Model-based Unit Point Linkage Analysis (LODLINK). Mainly used to calculate the LOD values between the main model-based features and the two points between the loci. The main characteristics may be any marker or other characteristics that conform to Mendelian transmission. The emphasis is on the naming of the main features and the explicit file generated from the SEGERG program.
Chapter 15: Model-based multilocus linkage analysis (MLOD). It is mainly used to calculate the multilocus linkage analysis between small or large model-based families. The emphasis is on the generation and identification of major characteristics of genomic data files.
Chapter 16: Siblin-to-Siblin Linkage Analysis (SIBPAL). It can be a shared consanguineous allele information at a single point or multiple loci. Bivariate and contiguous variables are used simultaneously according to the multilocus genes, including epistatic interactions and covariate effects. The emphasis is on different characteristics that need to be set accordingly.
Chapter 17: Lods linkage analysis of affected siblings (LODPAL). The program is based on Lods scores of affected siblings. Currently, the general conditional logistic regression model is implemented. Attention should be paid to the setting of effectiveness.
Chapter 18: Transfer Disequilibrium Test (TDT). The TDT in the program is based on the basic model of transfer disequilibrium. It is used to analyze the linkage between marker sites and disease sites under the condition of known linkage disequilibrium. The disease characteristics are binary variables. The premise is to master the principle of TDT.
Result
Through this paper, geneticists can make full use of their genetic data for genetic statistical analysis, saving manpower and material resources, learning this software can guide geneticists to collect genetic data, as far as possible use of genetic data, thus speeding up the development of genetic epidemiology.
【学位授予单位】:南方医科大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.52;R181.3

【相似文献】

相关会议论文 前10条

1 叶冬青;施小明;陆伟;;系统性红斑狼疮的遗传流行病学研究[A];新世纪预防医学面临的挑战——中华预防医学会首届学术年会论文摘要集[C];2002年

2 张彩霞;鲍忠赞;周前凯;魏广兵;徐世清;司马杨虎;;家蚕正反交SAGE表达分析[A];中国蚕学会第八届暨国家蚕桑产业技术体系家(柞)蚕遗传育种及良种繁育学术研讨会论文集[C];2011年

3 杨智;邹勇莉;涂颖;顾华;何黎;;痤疮遗传模式研究[A];2006中国中西医结合皮肤性病学术会议论文汇编[C];2006年

4 徐德忠;王安辉;李良寿;;人类基因组流行病学的研究[A];新世纪预防医学面临的挑战——中华预防医学会首届学术年会论文摘要集[C];2002年

5 林晓玲;刘芳;卢大儒;徐剑锋;;中国人群前列腺特异性抗原的遗传研究[A];2012年中国青年遗传学家论坛会议文集[C];2012年

6 陈晓铮;林新华;李明禄;伍民友;;基于SAGE的分布式虚拟现实框架[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

7 徐德忠;王安辉;李寿良;;人类基因组流行病学的研究[A];新世纪预防医学面临的挑战——中华预防医学会首届学术年会论文摘要集[C];2002年

8 张玉琦;徐文炜;程灶火;李桂林;吴越;顾君;张明廉;;阿尔茨海默病的遗传流行病学研究[A];中华医学会精神病学分会第九次全国学术会议论文集[C];2011年

9 施慎逊;;女性抑郁症遗传流行病学国际合作课题[A];中华医学会精神病学分会第九次全国学术会议论文集[C];2011年

10 刘菊华;金志强;徐碧玉;;植物功能基因组学研究技术及其在热带作物上的应用前景[A];中国热带作物学会第七次全国会员代表大会暨学术讨论会论文集[C];2004年

相关重要报纸文章 前10条

1 Jet;时尚之风[N];计算机世界;2004年

2 ;Web—mail商务应用异军突起[N];科技日报;2000年

3 ;邮件系统供应商扫描(一)[N];中国计算机报;2001年

4 秀文;波导股份(600302)生产没有盲点的手机[N];山西日报;2000年

5 本报记者 阮湘华 通讯员 武明飞;天喻信息在调整中崛起[N];科技日报;2005年

6 杨朝英;专用通讯市场烽烟再起[N];人民政协报;2004年

7 本报记者 宋剑峰;被遗漏的人类基因?[N];中国高新技术产业导报;2002年

8 深圳海景贸易公司 杜越;延长信息的触角[N];网络世界;2001年

9 叶黎明;波导以专搏大[N];科技日报;2000年

10 安徽医科大学教授 张学军;“牛皮癣”病因查明:一遗传 二环境[N];健康报;2001年

相关博士学位论文 前10条

1 刘江波;白癜风的遗传流行病学研究[D];安徽医科大学;2005年

2 董艳彬;高血压的遗传易感性及其分子基础的临床与实验研究[D];中国协和医科大学;1995年

3 潘发明;中国汉族人群免疫球蛋白受体家族基因单核苷酸多态性与系统性红斑狼疮的关联研究[D];安徽医科大学;2006年

4 王先良;基于甲基化特异性引物和SAGE的高通量DNA甲基化定量检测方法研究[D];华中科技大学;2006年

5 杨森;六种常见皮肤病(寻常型银屑病、白癜风、斑秃、瘢痕疙瘩、花斑癣、雀斑)的遗传流行病学比较性研究[D];安徽医科大学;2007年

6 唐晓武;中国汉族人群免疫球蛋白受体同系物家簇基因单核苷酸多态性与强直性脊柱炎的关联研究[D];安徽医科大学;2009年

7 甘丽萍;家蚕黄茧限性品种雌雄SAGE文库的构建及其差异表达基因的研究[D];苏州大学;2011年

8 黄健华;基于SAGE技术的家蚕基因表达谱研究[D];中国科学院研究生院(上海生命科学研究院);2007年

9 缑金营;棉花纤维发育研究:表达谱和代谢谱分析[D];中国科学院研究生院(上海生命科学研究院);2006年

10 徐佳;高通量基因筛选技术的应用及优化[D];山东大学;2010年

相关硕士学位论文 前10条

1 陈莉雅;遗传流行病统计分析软件SAGE的开发与应用[D];南方医科大学;2007年

2 鲍忠赞;家蚕幼虫高温处理前后SAGE文库的构建与分析及差异表达热激蛋白基因的研究[D];苏州大学;2012年

3 张彩霞;家蚕正反交F_1代SAGE文库的构建与分析及差异基因的时空表达谱研究[D];苏州大学;2012年

4 王惠琳;GLGI技术鉴定和分析SLE患者CD4~+和CD8~+T细胞基因表达谱的初步研究[D];第三军医大学;2006年

5 潘兴元;应用生物信息学方法从低氧处理人动脉内皮细胞SAGE库中挖掘低氧反应相关新基因[D];南京师范大学;2005年

6 王剑;汉族人系统性红斑狼疮遗传流行病学研究[D];安徽医科大学;2006年

7 闫会萍;单纯性肥胖患者脂肪组织中新陈代谢相关基因的表达分布[D];北京体育大学;2006年

8 黄跃峰;超水稻杂交基因研究和数据库构建[D];吉林大学;2008年

9 张校辉;胃癌遗传流行病学研究[D];郑州大学;2007年

10 陈晓铮;基于SAGE的分布式虚拟现实框架[D];上海交通大学;2008年



本文编号:2179580

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/liuxingb/2179580.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4c236***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com