改进的特征选择算法及其在miRNA与靶基因网络分析上的应用
本文关键词: 特征选择 基因芯片数据 miRNA靶基因网络 mi RNA-靶基因对 出处:《吉林大学》2017年硕士论文 论文类型:学位论文
【摘要】:目前,癌症是威胁人类生命健康的一大杀手,因此研究癌症的致病机理成为当前的研究热点之一。如果能够根据肿瘤标志物的情况来判断癌症的产生情况,显然对预防和治疗癌症都是有益的。有研究发现,差异表达的基因和miRNA有作为肿瘤标志物的潜力。miRNA是一种类型小的非编码RNA,并且参与很多生物过程,例如在维持干细胞,组织发展及细胞代谢中发挥着重要的作用,miRNA参与靶向基因的转录来影响其表达情况。在人类基因组中大约有4%的基因是miRNA,miRNA的异常表达通常会导致靶向基因的异常表达,从而导致细胞功能改变,如细胞分化,增殖,甚至死亡。很多研究表明,miRNA参与癌症在人体内的生物过程,因此研究miRNA的表达行为对诊断与治疗癌症是非常有意义的。近年来高通量测序技术得到迅速发展,该项技术有高通量、简单、运算方便等优点。研究人员使用基因芯片技术得到多种癌症的基因和miRNA表达数据,然后对这些数据使用分析手段获取差异表达的基因和miRNA,最后根据需要做后继分析。但是使用基因芯片技术得到的表达数据,具有高维小样本的特点,即成千上万基因或者miRNA表达数据仅有几十个样本数据,这样给分析过程带来一定的困难。为了解决这一问题,一般在分析之前尝试给数据降维,特征选择方法是目前比较常见的数据降维手段。使用优秀的特征选择算法,即性能稳定且特征子集分类准确性高的算法,对后续分析过程有很大的帮助。本文主要关注过滤式特征选择算法,该类算法相对其他类型的特征选择算法具有简单、快速和稳定的特点。在本文中,我们对最大相关最小冗余(m RMR)特征选择方法进行改进。近年来,很多研究关注使用成对的样本数据,为了增强算法的稳定性,本文使用成对的样本数据和集成策略对算法进行改进,提出一个更加稳定的特征选择算法。在本文的实验分析部分,我们使用六个癌症数据集进行实验,与其他一些特征选择方法比较,我们提出的算法具有更高的准确率和更好的稳定性。为了研究癌症的致病机理,关注异常表达的miRNA和基因以及两者之间的靶向关系是十分重要的。在本文中,我们提出了一个改进的多步骤分析法来构建miRNA与靶向基因的关系网络,分析miRNA-靶向基因对之间的关系。首先,使用改进的特征选择算法获得差异表达的miRNA和基因。然后基于选定的miRNA和基因在肿瘤及其相应的正常组织中的表达水平,使用皮尔森系数计算miRNA与基因之间的相关性,从而获取具有负相关关系的miRNA-靶向基因对。最后,为了验证我们的方法,使用三个靶基因预测数据库筛选计算结果并进行分析。在分析部分,使用四类癌症芯片数据,对每类癌症计算结果经数据库筛选前和筛选后进行展示。通过对结果的展示和生物学分析,可以看到使用我们的方法可以得到一些在靶基因预测数据库中不曾出现的miRNA-靶向基因对。这些miRNA-靶向基因对可以提供给生物研究人员,为他们的研究工作缩小了范围并提高了研究效率。
[Abstract]:In recent years , it is very important to study the expression of miRNA . In order to solve this problem , it is very important to study the expression of miRNA in human body . Finally , in order to validate our method , we use three target gene prediction databases to screen the results and analyze them . In the analysis part , we can get some miRNA - targeting gene pairs that have not appeared in the target gene prediction database by using the data of the four types of cancer chip .
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R73-3
【相似文献】
相关会议论文 前5条
1 甄超;郑涛;许洁萍;;音乐流派分类中特征选择算法研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
2 张仰森;曹元大;;最大熵建模方法中一种改进的特征选择算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
4 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
5 李文法;段m#毅;刘悦;孙春来;;一种面向流分类的特征选择算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
相关博士学位论文 前6条
1 王剑桥;基于局部特性的毫米波距离像识别方法研究[D];南京理工大学;2014年
2 李云;特征选择算法及其在基于内容图像检索中的应用研究[D];重庆大学;2005年
3 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
4 张靖;面向高维小样本数据的分类特征选择算法研究[D];合肥工业大学;2014年
5 潘巍巍;故障严重程度识别的有序分类特征分析方法[D];哈尔滨工业大学;2013年
6 张嘉伟;心电图形态特征的识别及其在分类中的作用研究[D];华东师范大学;2011年
相关硕士学位论文 前10条
1 徐娇;基于Hadoop的文本特征选择算法的研究[D];兰州大学;2015年
2 朱艳玲;基于聚类的多层特征选择算法的研究与应用[D];郑州轻工业学院;2015年
3 周p,
本文编号:1527747
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1527747.html