当前位置:主页 > 医学论文 > 实验医学论文 >

结合偏最小二乘回归的复杂疾病基因定位全基因组关联分析

发布时间:2018-03-24 13:31

  本文选题:偏最小二乘回归 切入点:多元统计分析 出处:《浙江大学》2010年硕士论文


【摘要】: 人类常见复杂遗传疾病的基因定位数年来一直是生物学和遗传学研究的热点领域之一。随着DNA测序技术和芯片技术的不断发展,多元统计分析,数据挖掘和机器学习等多种分析方法被广泛应用于全基因组关联分析的研究中,而全基因组关联分析已经成为搜索与疾病易感性相关遗传变异的主要方法。但是,大多数分析方法都基于不同的遗传变异之间功能相互独立的假设,而遗传变异对于疾病易感性的影响主要还是依靠基因-基因与基因-环境的交互作用。忽略遗传背景可能会降低检测效能与研究的可重复性,为了克服基于相互独立性假设的全基因组关联分析中的缺陷,我们使用多元统计分析中的偏最小二乘回归方法的全基因组关联分析对人类常见复杂疾病数据进行研究。我们将偏最小二乘回归应用于WTCCC的七种人类常见复杂疾病的真实数据,并检测出一个新的类风湿关节炎的相关SNP位点,一个新的2型糖尿病相关SNP位点以及一个在以往的研究中只有中等显著性但是在偏最小二乘回归研究中有较高显著性的高血压相关SNP位点rs2820037。我们没有找到在以往的研究中有较高显著性的双向障碍相关SNP位点rs420259,这与近期的研究中报道此SNP位点是无法重复的结果相吻合。此外,我们将偏最小二乘回归方法与传统的单SNP位点统计分析,逐步Logistic回归分析和主成分回归分析进行比较,发现前者具有较为明显的效能优势。
[Abstract]:Gene mapping of common complex genetic diseases in humans has been one of the hot research fields in biology and genetics for several years. With the development of DNA sequencing technology and chip technology, multivariate statistical analysis, Many analysis methods, such as data mining and machine learning, have been widely used in the study of genome-wide association analysis, and genome-wide association analysis has become the main method to search for genetic variation associated with disease susceptibility. Most analytical methods are based on the assumption that the functions of different genetic variations are independent of each other. The effect of genetic variation on disease susceptibility mainly depends on the interaction between gene and gene environment. Neglecting genetic background may reduce the detection efficiency and the repeatability of research. To overcome shortcomings in genome-wide association analysis based on the assumption of mutual independence, We use partial least square regression method in multivariate statistical analysis to study human common complex disease data. We apply partial least squares regression to the real data of seven common human complex diseases in WTCCC. A new SNP locus associated with rheumatoid arthritis was detected. A new type 2 diabetes associated SNP locus and a moderately significant SNP locus rs2820037, which were only moderately significant in previous studies, were found in the partial least squares regression study. The SNP locus rs420259 is highly significant in this study, which is consistent with the results reported in recent studies that the SNP locus is unrepeatable. We compared the partial least square regression method with the traditional statistical analysis of single SNP locus, stepwise Logistic regression analysis and principal component regression analysis, and found that the former has obvious efficiency advantage.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:R346

【相似文献】

相关期刊论文 前10条

1 李学军;王阅雯;郭tD;乔志刚;;淇河鲫与其它3种鲫形态差异的多元统计分析[J];上海海洋大学学报;2011年05期

2 刘娟;吴巧凤;孙博;周思远;余曙光;董方霆;颜贤忠;;利用气质联用方法研究功能性消化不良患者血浆代谢谱的变化[J];军事医学;2011年06期

3 夏秀杰;;多元统计分析方法在医学统计应用中的探讨[J];China's Foreign Trade;2011年12期

4 陈红英;李盛;张秀英;沈奕峰;;上海市浦东新区对专业人员接种不良反应监测的KAP调查[J];上海预防医学;2011年06期

5 任彦荣;;混合微粒群神经网络系统的构建及其在HLA-A~*0201限制性T细胞表位活性预测中的应用[J];计算机与应用化学;2011年06期

6 李陆;刘桂友;刘婧姝;杨奕;任利妍;乔卫;;基于均匀设计法对酸枣仁镇静催眠有效组分的配伍研究[J];中草药;2011年07期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相关会议论文 前10条

1 朱寿增;黎智;李小明;刘毅;;柳州市红粘土物理力学性质指标的多元统计分析[A];第20届全国结构工程学术会议论文集(第Ⅱ册)[C];2011年

2 陈式龙;;我国出口贸易偏最小二乘回归的实证分析[A];“珠江三角洲经济发展与流通现代化”大型理论研讨会论文集[C];2005年

3 杜国荣;蔡文生;邵学广;;双共识模型建模方法用于近红外光谱的定量分析[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

4 赵旭东;韩德辉;窦筱艳;石丽娜;杜岩功;杨永顺;;基于多元统计分析的三江源地区黄河水质综合评价[A];2010中国环境科学学会学术年会论文集(第三卷)[C];2010年

5 吴从元;王俊;韦真博;王永维;叶盛;;电子舌预测纯牛奶表观粘度[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

6 毕春娟;陈振楼;许世远;李丽娜;;长江口潮滩柱样沉积物重金属多元统计分析[A];认识地理过程 关注人类家园——中国地理学会2003年学术年会文集[C];2003年

7 杨善彬;杨青林;梁桂兆;潘元;李雷光;;3D-HoVAIF用于环己烯类神经氨酸酶抑制剂的QSAR研究[A];2011年中国药学大会暨第11届中国药师周论文集[C];2011年

8 程琳;冯松林;吕智荣;;陕西西岳庙古琉璃胎料来源的INAA研究及多元统计分析[A];第十二届全国核物理大会论文集(下)[C];2004年

9 吕中楠;李晋宏;蔡晟;;铝电解槽分班组指标统计分析系统研究与开发[A];中国计量协会冶金分会2008年会论文集[C];2008年

10 吕中楠;李晋宏;蔡晟;;铝电解槽分班组指标统计分析系统研究与开发[A];2008全国第十三届自动化应用技术学术交流会论文集[C];2008年

相关重要报纸文章 前10条

1 本报记者 张春玲 实习生 向斌;李开灿:守住梦想的数学爱好者[N];黄石日报;2006年

2 徐用懋 熊智华;新技术提升过程测控能力[N];中国化工报;2005年

3 ;《统计学———从数据到结论》[N];中国信息报;2004年

4 张士伟 张芳;建立科学合理的基金分类体系[N];中国证券报;2003年

5 ;电信业对信息化的贡献有多大[N];人民邮电;2004年

6 刘悦镔;高新技术产业监测评价方法与比较研究[N];中国企业报;2003年

7 韦荣华 周丽燕;用数学探索林学[N];人民政协报;2003年

8 于详;《统计学教学案例》[N];中国信息报;2004年

9 淮阴师范学院 刘岳启;苏北农村“留守少年”教育问题亟待关注[N];成才导报.教育周刊;2007年

10 叶东云;统计主成分分析的应用问题[N];延安日报;2009年

相关博士学位论文 前10条

1 姜丹丹;大维随机矩阵谱理论在多元统计分析中的应用[D];东北师范大学;2010年

2 殷弘;Kriging方法在定量的分子结构与分子化学属性之间关系的建模研究[D];武汉大学;2005年

3 郭建校;改进的高维非线性PLS回归方法及应用研究[D];天津大学;2010年

4 王艳树;超低温冻融对近红外光谱法测定土壤磷、钾含量的影响[D];沈阳农业大学;2012年

5 李霞;基于数据挖掘的两相流参数测量新方法研究[D];浙江大学;2009年

6 钱晓英;外商直接投资、国际贸易促进经济增长的实证研究[D];湖南大学;2005年

7 张路;基于多元统计分析的遥感影像变化检测方法研究[D];武汉大学;2004年

8 韩秀荣;长江口及邻近海域浮游植物生长的多环境效应因子影响解析研究[D];中国海洋大学;2009年

9 赵维娟;秦始皇陵考古中有关产地问题的核分析技术研究[D];郑州大学;2006年

10 杨武;基于多源数据的土地利用变化研究[D];同济大学;2006年

相关硕士学位论文 前10条

1 陈苏超;结合偏最小二乘回归的复杂疾病基因定位全基因组关联分析[D];浙江大学;2010年

2 赵司嘉;北京市十六区县地区差距的多元统计分析[D];中国青年政治学院;2011年

3 魏勤;信息融合理论在唐氏综合症筛查系统中的应用研究[D];武汉理工大学;2006年

4 张凤莲;多元线性回归中多重共线性问题的解决办法探讨[D];华南理工大学;2010年

5 王文佳;呼叫中心的顾客满意度研究[D];天津大学;2004年

6 黄舜;配电网中谐波源定位与检测方法研究[D];华北电力大学(北京);2006年

7 冯敏;航运对长江水质的影响分析[D];上海海事大学;2005年

8 薛娟;农村电网中长期负荷预测方法的研究[D];中国农业大学;2005年

9 王晓涛;西安市SO_2污染预报的动力学统计模型研究[D];西安建筑科技大学;2006年

10 张翼飞;甲状腺激素受体配体结合力的定量构效关系研究[D];大连理工大学;2011年



本文编号:1658518

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/shiyanyixue/1658518.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8802c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com