当前位置:主页 > 医学论文 > 医卫管理论文 >

基于粒计算的疾病差异表达基因研究

发布时间:2020-03-28 23:19
【摘要】:本文基于粒计算理论,结合已有的聚类算法以及Logistic Regression、Random Forest等数据挖掘算法,对其进行改进和优化,并建立优化模型。从NCBI以及GEO数据库中分别下载病毒蛋白质序列和基因芯片数据,通过对其进行预处理与数字特征化后,应用到模型中,结合实验结果,证实本文提出的模型能为生物信息大数据的处理提供新的有效的方法。文章的主要工作内容可以概括如下:第二章是准备知识,对各类聚类算法、粒度空间中的一些基本概念、最小生成树算法、Logistic Regression模型和Random Forest模型的原理进行了介绍。第三章在粒计算理论的基础上,进行了基于归一化距离的最小生成树分类算法研究。首先,根据统计学中类内偏差和类间偏差的性质,定义了新的最优聚类指标,然后在已有的粒度空间生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了最小生成树分类算法并建立最优聚类模型。最后,将最优聚类模型应用于898条同时含有HA和NA并且能够感染人的禽流感病毒的蛋白质序列上,基于距离中心最近原则,先后两次运行最小生成树分类算法,得到了最优层次结构,相应地,选出了6条具有代表性的病毒序列。第四章的研究对象是癌症,通过将Logistic Regression算法和Random Forest算法进行组合,提出了一种新的混合模型——LR-RF模型,基于FWER错误测度的Bonferroni检验,将模型应用在两个乳腺癌DNA微阵列数据集上,筛选乳腺癌中差异表达的基因。通过十次重复随机试验,本文所提出的LR-RF模型的平均预测准确率达到93.11%,方差低至0.00045。当Random Forest算法中基因重要性评分进行排序时选取的阈值?=0.2,预测准确率达到最大值95.57%,并且筛选出来的差异表达基因数量相对较少。另外,建立差异表达基因的相互作用网络,通过分析基因相互作用网络,可以发现本文选择的前20个基因中的大多数都涉及乳腺癌的发生与发展过程。这些结果都证明了LR-RF模型的可靠性和有效性。
【图文】:

流程图,聚类算法,分裂算法,聚类


第二章 准备知识类算法简介类算法与粒计算有着密切的联系,聚类算法是将数据样本进行分类,而粒计算样本进行粒化。因此,聚类算法将粒计算思想进行具体的实现,而粒计算是将的思想进行了抽象的描述。下面介绍一些常用的聚类算法。于划分的聚类-means 算法是数据挖掘中最常用的一种划分聚类算法[18]。K-means 算法是在给类数 n 之后,能够将数据集分成 n 个簇,,算法需要使得平方误差达到最小化,目的是找到我们想要的 n 个簇,并且使得每个簇内所有的样本点之间的相似度。K-means 算法简单,并且运行速度快,适用于大数据集,但是算法本身也有,由于初始值选择的不同,会导致最终的分类结果也不同,而且 K-means 算法分布的数据集也不能得到合理的分类结果。K-means 算法的流程图如图 2-1 所

流程图,层次聚类算法,流程图


图 2-2 层次聚类算法流程图层次聚类算法形成的类一般通过树状图来表示。层次聚类算法具有不需要预先数目、容易发现类与类之间的层次关系等优点,但是层次聚类算法的计算复杂且很可能将数据样本聚类成链状。3 基于密度的聚类密度聚类的思想不同于 K-means 算法的思想,但是密度聚类的思想更符合人类密度聚类的基本思想是通过是否紧密相连来判断数据样本点是否属于一个簇。度聚类的算法中,比较有代表性的算法是 Density-Based Spatial Clusterilications with Noise (DBSCAN)[20],它基于一组邻域( , MinPts)来表征整个数据处的样本是否是紧密的,下面是 DBSCAN 的基本算法步骤:
【学位授予单位】:江南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13;R-05

【相似文献】

相关期刊论文 前10条

1 ;MNNG致小鼠肢体异常发育差异表达基因的筛选和鉴定[J];癌变.畸变.突变;2001年04期

2 李刚,寿江;寻找差异表达基因的新方法:mRNA差异显示[J];国外医学(放射医学核医学分册);1997年03期

3 赵勇,丁金凤;寻找差异表达基因[J];国外医学.遗传学分册;2000年02期

4 李炜弘;许嗣立;张天娥;丁维俊;黄禹峰;曾跃琴;谭雪菊;;老龄肾阳虚证差异表达基因的筛选与鉴定[J];辽宁中医杂志;2012年04期

5 刘洪博;刘新龙;苏火生;陆鑫;徐超华;毛钧;林秀琴;李纯佳;李旭娟;字秋艳;;干旱胁迫下割手密根系转录组差异表达分析[J];中国农业科学;2017年06期

6 任丽萍;章琳;洪贵妮;郭政;;基于蛋白质互作评价差异表达基因的重复性[J];生物信息学;2011年03期

7 王学,徐静;一种鉴别基因差异表达的新方法——差异表达mRNA呈现技术[J];生物工程进展;1998年03期

8 戴建新,孙树汉;差示RT-PCR克隆寄生虫差异表达基因的新策略[J];中国寄生虫学与寄生虫病杂志;1997年05期

9 蒋定锋;潘娟娟;赵耐青;;差异表达基因筛选方法的比较[J];中国卫生统计;2006年05期

10 齐鲁;丁彦青;;基于差异表达基因探索大肠癌早期转移相关分子机制[J];中国科学:生命科学;2013年07期

相关会议论文 前10条

1 胡建达;陈晓梨;陈鑫基;祝亮方;杨月玲;陈元仲;吕联煌;;抑制性消减杂交法研究初治和复发急性淋巴细胞白血病基因的差异表达[A];第九届全国实验血液学会议论文摘要汇编[C];2003年

2 尚伟;刘震;来超;谢兆宏;;应用抑制性消减杂交技术筛选癫痫患者外周血的差异表达基因[A];中华医学会第十七次全国神经病学学术会议论文汇编(下)[C];2014年

3 韩愉;乔洪宾;冯金涛;刘金明;李浩;陆珂;金亚美;;正常发育与发育阻遏雌虫差异表达miRNA分析[A];中国畜牧兽医学会兽医寄生虫学分会第十三次学术研讨会论文集[C];2015年

4 狄冉;储明星;;高通量筛选差异表达基因技术简介[A];中国畜牧兽医学会养羊学分会全国养羊生产与学术研讨会议论文集[C];2010年

5 叶波平;边杉;赵艳景;王颖;奚涛;王;吴梧桐;;鲨鱼再生肝组织中差异表达基因及其产物的活性研究[A];中国海洋生化学术会议论文荟萃集[C];2005年

6 李尚伟;龙章富;;性逆转石斑鱼性腺中PIN基因的差异表达及其特征分析(英文)[A];第三届贵州省自然科学优秀学术论文评选获奖论文集(2010年)[C];2010年

7 张计育;黄胜男;莫正海;郭忠仁;王刚;宣继萍;贾晓东;;涝害胁迫下猕猴桃差异表达基因的转录组测序及比较分析[A];中国园艺学会2015年学术年会论文摘要集[C];2015年

8 秦国政;田世平;王清;刘嘉;;线粒体蛋白差异表达及氧化修饰与果实成熟衰老的关系[A];第三届全国植物蛋白质组学大会摘要集[C];2010年

9 余鑫煜;董学君;张卉;邵健忠;项黎新;;小鼠肝损伤过程中差异表达基因的cDNA芯片筛选及功能分析[A];2009年浙江省检验医学学术年会论文汇编[C];2009年

10 党平;聂敏媛;孟庆岩;安钰;孔磊;董蕊;郑翰圣;施生根;;基于GO分析的全基因组芯片筛选小鼠牙囊发育早期差异表达基因的研究[A];第八次全国口腔修复学学术年会论文汇编[C];2014年

相关重要报纸文章 前1条

1 ;肾癌差异表达基因鉴定及功能研究[N];中国医药报;2002年

相关博士学位论文 前10条

1 唐尧;SEPT家族基因异常表达在食管鳞癌中的临床意义及作用机制[D];北京协和医学院;2017年

2 姚颖垠;小麦杂交种与亲本之间差异表达基因的分离、克隆与功能鉴定[D];中国农业大学;2005年

3 苑纯秀;日本血吸虫发育期别差异表达基因的筛选研究及新基因的克隆分析[D];中国农业科学院;2005年

4 胡国章;利用生物信息学方法筛选胶质瘤的差异表达基因及其相关机制[D];吉林大学;2015年

5 齐湘杰;高恶性膀胱移行细胞癌与相应正常上皮差异表达基因的克隆及功能研究[D];天津医科大学;2003年

6 张晓文;银杏雌雄花芽差异表达基因研究[D];山东农业大学;2014年

7 戚大川;应用基因芯片筛选胆管癌相关差异表达基因及对其功能的研究[D];苏州大学;2015年

8 陈杰;人肺腺癌多药耐药细胞差异表达基因的克隆与初步鉴定[D];第三军医大学;2001年

9 彭依群;雌二醇诱导人成骨样MG-63细胞差异表达基因的分离和鉴定[D];中南大学;2003年

10 陈蓉芳;N-甲基-N'-硝基-N-甲基亚硝基胍致小鼠肢体异常发育差异表达基因的筛选和鉴定[D];第二军医大学;2001年

相关硕士学位论文 前10条

1 孙梦梦;基于粒计算的疾病差异表达基因研究[D];江南大学;2018年

2 方春晓;新疆汉族食管淲癌mRNA差异表达基因的筛选[D];石河子大学;2018年

3 李佼旬;基因芯片筛选非综合征型唇腭裂差异表达基因的初步研究[D];重庆医科大学;2018年

4 何聪;非酒精性脂肪肝病的血清miRNA差异表达谱的初步研究[D];江苏大学;2017年

5 王菁菁;食管鳞癌中差异表达的lncRNA的筛选及分析[D];江苏大学;2017年

6 任丽萍;根据功能相关性评价差异表达基因的可重复性[D];电子科技大学;2011年

7 魏婷;基于转录组数据的造血干细胞差异表达基因研究[D];北京交通大学;2015年

8 张远婵;联用激光显微切割与基因芯片技术筛选肝细胞癌差异表达基因[D];广州医学院;2009年

9 徐劲松;应用抑制消减杂交技术研究外周血嗜酸细胞支气管哮喘相关基因的差异表达[D];第一军医大学;2004年

10 张小蒙;杂交稻差异表达的基因分析及其与杂种优势的关系[D];扬州大学;2010年



本文编号:2605056

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2605056.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4c191***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com