差异甲基化位点识别算法的对比研究与优化
本文选题:DNA甲基化 + 差异甲基化位点 ; 参考:《电子科技大学》2017年硕士论文
【摘要】:DNA甲基化是最重要的表观遗传机制之一,在基因表达调控、胚胎发育、X染色体失活、基因印记以及维持染色质结构等生物学过程中发挥着重要的作用,并且与许多疾病的致病过程相关。近年来的大量研究表明,差异甲基化位点与许多疾病有直接关系,特别是癌症。因此,识别差异甲基化位点是解剖疾病病因中最关键和最根本的问题之一。本文对多种癌症进行分析,找到每种癌症对应的差异甲基化位点,为癌症早期诊断提供依据,为此本文做了如下工作:1)针对现有统计假设检验方法只是选出在统计上有显著差异的位点,选出来的位点并不都具有类别区分特性,本文引入了基于机器学习的特征选择方法(Elastic Net正则化)。该方法有效解决了假设检验方法不能同时发现多个位点对癌症的组合作用。2)针对在优化差异甲基化识别算法过程中发现选择出的差异甲基化位点不稳定问题,本文提出了基于Elastic Net正则化的集成特征选择算法。本文选择了 13种癌症数据来分析算法特征选择稳固性,结果发现在两种特征选择算法模型分类性能接近的情况下本文算法在特征选择稳固性评价指标(杰卡德指数)上优于Elastic Net正则化特征选择算法。3)在与现有统计假设检验方法的对比中,本文采用在独立测试集上测试本文算法选择出的差异甲基化位点与FastDMA、RnBeads两种假设检验方法得到的差异甲基化位点的类别区分性能。结果发现,本文算法在独立测试集上正确率高于FastDMA与RnBeads,由此可知本文算法选出的差异甲基化位点的类别区分性能优于两种假设检验方法。4)针对本文选出的差异甲基化位点是否有实际的生物意义,本文采用了对多种癌症做癌症共性分析。本文将癌症共有差异甲基化位点对应到基因上,得到38个共有差异基因,查阅文献发现有23个共有差异基因跟癌症有密切关系。本文进行pathway分析时,发现共有代谢通路有11个,其中9个和癌症有直接关系。这说明本文找到的差异甲基化位点能为生物学家提供有效参考。
[Abstract]:DNA methylation is one of the most important epigenetic mechanisms. It plays an important role in gene expression regulation, embryo development X chromosome inactivation, gene imprinting and maintaining chromatin structure.And related to the pathogenesis of many diseases.A large number of studies in recent years have shown that differential methylation sites are directly related to many diseases, especially cancer.Therefore, the identification of differential methylation sites is one of the most critical and fundamental problems in the etiology of anatomical diseases.In this paper, the differential methylation sites for each cancer were found by analyzing various kinds of cancers, which provided the basis for the early diagnosis of cancer.In this paper, the following work has been done: (1) in view of the existing statistical hypothesis testing methods, only the sites with significant statistical differences are selected, and not all of the selected loci have the characteristics of category differentiation.In this paper, an Elastic Net regularization method based on machine learning is introduced.This method effectively solves the problem that the hypothesis test method can not find the combination action of multiple sites on cancer at the same time. 2) in the process of optimizing the differential methylation identification algorithm, we can find the instability of the selected differential methylation sites.This paper presents an ensemble feature selection algorithm based on Elastic Net regularization.In this paper, 13 kinds of cancer data are selected to analyze the stability of algorithm feature selection.The results show that the proposed algorithm is better than Elastic Net regularization feature selection algorithm. 3 on the evaluation index of feature selection stability (Jekard exponent) under the condition that the classification performance of the two feature selection algorithms is similar to that of the existing statistical false.In the comparison of test methods,In this paper, the differential methylation sites selected by our algorithm and the differential methylation sites obtained by FastDMA-RnBeads are tested on an independent test set.And it turns out,The accuracy of this algorithm on the independent test set is higher than that of FastDMA and RnBeads.The classification performance of the differential methylation sites selected by this algorithm is better than that of the two hypothetical test methods .4The differential methylation sites selected in this paper are as follows:Whether it has practical biological significance,In this paper, the cancer commonness analysis of many kinds of cancer is adopted.In this paper, 38 common differential genes were obtained by mapping the common differential methylation sites of cancer to genes, and 23 common differential genes were found to be closely related to cancer.Pathway analysis showed that there were 11 metabolic pathways, 9 of which were directly related to cancer.This indicates that the differential methylation sites found in this paper can provide effective reference for biologists.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R73-3
【相似文献】
相关期刊论文 前10条
1 南重汉;邹凌云;;基于分组重量编码和特征选择技术预测外膜蛋白[J];第三军医大学学报;2013年13期
2 何兰;范继红;;基因芯片数据特征选择法研究[J];医学信息学杂志;2012年10期
3 张晓云;蒋伟文;;全基因组甲基化研究进展[J];临床口腔医学杂志;2013年10期
4 陈亚军;文格波;;蛋白质精氨酸甲基转移酶的研究进展[J];国际病理科学与临床杂志;2008年06期
5 安健;明树红;;抑癌基因甲基化与肺癌的诊断和治疗[J];医学综述;2008年21期
6 吴红霞;吴悦;刘宗田;雷州;;基于Relief和SVM-RFE的组合式SNP特征选择[J];计算机应用研究;2012年06期
7 张亮;肺癌与抑癌基因甲基化关系的研究进展[J];临床与实验病理学杂志;2003年02期
8 张志勇;李春宏;仇小强;农清清;何敏;覃健;蒋贵发;黄明立;;广西长寿地区人群白细胞DNA总体甲基化水平研究[J];中国老年学杂志;2009年12期
9 邵欢;李国正;刘国萍;王忆勤;;多标记中医问诊数据的症状选择[J];中国科学:信息科学;2011年11期
10 杨立才;李金亮;姚玉翠;吴晓晴;;基于F-score特征选择和支持向量机的P300识别算法[J];生物医学工程学杂志;2008年01期
相关会议论文 前10条
1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 苏改秀;权力;吴凤岐;黄小兰;;儿童系统性红斑狼疮基因组甲基化水平的研究[A];中华医学会第十七次全国儿科学术大会论文汇编(上册)[C];2012年
5 秦海红;朱小华;梁俊;吴金峰;杨永生;王上上;施伟民;徐金华;;microRNA-29b对T细胞DNA甲基化的调控在SLE发病中的作用研究[A];2013全国中西医结合皮肤性病学术年会论文汇编[C];2013年
6 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
7 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
8 朱小华;徐金华;;UVB暴露对SLE患者DNA甲基化的影响[A];中华医学会第十八次全国皮肤性病学术年会论文汇编[C];2012年
9 蒙新泛;王厚峰;;主客观识别中的上下文因素的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 朱小华;徐金华;;UVB暴露对SLE患者DNA甲基化的影响[A];2012全国中西医结合皮肤性病学术会议论文汇编[C];2012年
相关博士学位论文 前10条
1 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年
2 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
3 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年
4 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年
5 王爱国;微阵列基因表达数据的特征分析方法研究[D];合肥工业大学;2015年
6 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
9 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
相关硕士学位论文 前10条
1 宋应;差异甲基化位点识别算法的对比研究与优化[D];电子科技大学;2017年
2 周瑞;基于支持向量机特征选择的移动通信网络问题分析[D];华南理工大学;2015年
3 张金蕾;蛋白质SUMO化修饰位点预测的数据挖掘技术研究[D];西北农林科技大学;2015年
4 陈云风;基于聚类集成技术的高铁信号故障诊断研究[D];西南交通大学;2015年
5 张斌斌;网络股评的倾向性分析[D];中央民族大学;2015年
6 季金胜;高分辨率遥感影像典型地物目标的特征选择及其稳定性研究[D];上海交通大学;2015年
7 袁玉录;基于数据分类的网络通信行为建模方法研究[D];电子科技大学;2015年
8 王虎;基于试验设计的白酒谱图特征选择及支持向量机参数优化研究[D];南京财经大学;2015年
9 王维智;基于特征提取和特征选择的级联深度学习模型研究[D];哈尔滨工业大学;2015年
10 皮阳;基于声音的生物种群识别[D];电子科技大学;2015年
,本文编号:1732376
本文链接:https://www.wllwen.com/yixuelunwen/zlx/1732376.html