基于改进的边聚集系数和K近邻算法的关键蛋白识别研究
本文关键词:基于改进的边聚集系数和K近邻算法的关键蛋白识别研究
更多相关文章: 复杂网络 重要节点 机器学习 K近邻 Bootstrap-KNN模型
【摘要】:复杂网络被定义为一类由现实复杂系统抽象出来,并表现出高度复杂性的网络。现实生活中,我们总是处在不同的网络中,同时整个社会也被不同的网络所覆盖,如金融网、因特网、工作网、朋友圈、交通网、犯罪网等,因此深入研究复杂网络,对于我们的生活、工作都具有重大指导意义。 生物体内存在着大量蛋白质,根据它们对生物体的重要性可以分为两类:关键蛋白质和非关键蛋白质。关键蛋白质是指能够帮助生物体实现某些功能,并且丢失后会对生物体造成巨大影响的一类蛋白质,由此可见,它对于生物体的生存、正常工作意义重大。同时,通过计算机从复杂的蛋白质交互网络中识别关键蛋白质,已经成为当今研究的一大热点。现阶段该领域已有一些经典算法,如度中心性算法、介数中心性算法、紧密度中心性算法等,但是以上算法都只关注了节点在网络中的重要性,而忽略了边作为连接节点之间桥梁所具有的重要性。接着,便有研究者引入边聚集系数ECC(edge clusteringcoefficient,ECC),提出了新型中心度算法NC(new centrality,NC)、基于排除思想的剥落排序算法等,但是上述这些算法都存在两个共同问题:既没有将网络中的节点和边的双重特性有效结合起来,也没有综合考虑每种算法的优势。 针对上述问题,本文首先引入点聚集系数C(clustering coefficient,C)和边聚集系数ECC,并在此基础上,提出改进的边聚集系数IECC(improved edge clusteringcoefficient,IECC),和一种融合点和边双重拓扑特性的算法NEC(node and edge clusteringcoefficient,NEC)。 接着,本文引入了机器学习中的K近邻(K-Nearest Neighbor,简称KNN)算法。由于传统KNN算法容易产生过拟合或欠拟合,于是本文采用Bootstrap重抽样技术对KNN算法改进,改进后的新型蛋白质预测模型定义为bootstrap k-nearest neighbor模型(简称Bootstrap-KNN)。Bootstrap-KNN对每个节点的识别都综合了多种关键节点识别方法的评分,由于不同算法对不同网络结构的适用性,本文提出的方法使预测结果更加客观,而且适用性更强。 为了验证本文提出的改进算法NEC和Bootstrap-KNN模型的有效性,本文利用DIP(dataset of interacting proteins,DIP)数据集中的酵母蛋白质网络进行仿真实验。通过对实验结果中各项评价指标进行分析对比,,结果显示NEC算法的预测准确率等多项指标均高于大部分传统算法,并且Bootstrap-KNN模型对应的预测准确率等多项指标均高于NEC算法,这些改进能够为生物学中关键蛋白质的预测提供有效指导。
【关键词】:复杂网络 重要节点 机器学习 K近邻 Bootstrap-KNN模型
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:O157.5;TP181
【目录】:
- 摘要4-6
- Abstract6-11
- 第1章 绪论11-18
- 1.1 课题研究背景11-14
- 1.2 领域研究现状14-15
- 1.3 本文主要工作15-16
- 1.4 本文组织结构16-18
- 第2章 复杂网络与机器学习概述18-30
- 2.1 复杂网络概述18-19
- 2.1.1 复杂网络研究背景18
- 2.1.2 复杂网络的发展18-19
- 2.2 复杂网络结构特性及分析19-23
- 2.2.1 小世界特性19-20
- 2.2.2 无标度特性20-21
- 2.2.3 平均路径长度21-22
- 2.2.4 集聚系数22
- 2.2.5 节点度和度分布22-23
- 2.3 传统关键节点识别算法概述23-28
- 2.3.1 度中心性算法 DC23-24
- 2.3.2 介数中心性算法 BC24-25
- 2.3.3 紧密度中心性算法 CC25-26
- 2.3.4 特征向量中心性算法 EC26
- 2.3.5 子图中心性算法 SC26-27
- 2.3.6 信息流量中心性算法 IC27-28
- 2.4 机器学习概述28-29
- 2.4.1 机器学习定义28
- 2.4.2 机器学习重要性28-29
- 2.4.3 机器学习与数据挖掘29
- 2.5 本章小结29-30
- 第3章 基于节点和边的新型关键节点识别算法30-35
- 3.1 点聚集系数 C30
- 3.2 边聚集系数 ECC30-31
- 3.3 新中心性算法 NC31-32
- 3.4 本文改进算法32-33
- 3.4.1 改进的边聚集系数 IECC32
- 3.4.2 改进算法 NEC32-33
- 3.5 本章小结33-35
- 第4章 基于改进的 K 近邻算法的关键蛋白识别研究35-41
- 4.1 K 近邻算法35-36
- 4.1.1 K 近邻介绍35
- 4.1.2 K 近邻的应用35-36
- 4.2 K 近邻算法改进36-38
- 4.2.1 Bootstrap-KNN 模型36-37
- 4.2.2 Bootstrap-KNN 模型特征归一化37-38
- 4.2.3 Bootstrap 抽样技术38
- 4.3 Bootstrap-KNN 模型预测关键蛋白质38-40
- 4.4 本章小结40-41
- 第5章 实验仿真及结果分析41-52
- 5.1 实验数据集41
- 5.2 实验环境41
- 5.3 实验评价指标41-43
- 5.3.1 敏感度42
- 5.3.2 特异性42
- 5.3.3 阳性预测值42
- 5.3.4 阴性预测值42-43
- 5.3.5 F-指标43
- 5.3.6 准确率43
- 5.4 NEC 实验结果及分析43-47
- 5.5 Bootstrap-KNN 实验结果及分析47-51
- 5.6 本章小结51-52
- 第6章 总结与展望52-54
- 6.1 总结52-53
- 6.2 展望53-54
- 参考文献54-58
- 作者简介及在学期间所取得的科研成果58-59
- 致谢59
【参考文献】
中国期刊全文数据库 前10条
1 卢国祥;;归一化Alignment距离[J];工程数学学报;2014年01期
2 刘咏梅;彭琳;赵振军;;基于小世界网络的微博谣言传播演进研究[J];复杂系统与复杂性科学;2014年04期
3 赫南;李德毅;淦文燕;朱熙;;复杂网络中重要性节点发掘综述[J];计算机科学;2007年12期
4 胡健;董跃华;杨炳儒;;大型复杂网络中的社区结构发现算法[J];计算机工程;2008年19期
5 何清;李宁;罗文娟;史忠植;;大数据下的机器学习算法综述[J];模式识别与人工智能;2014年04期
6 谢益辉;朱钰;;Bootstrap方法的历史发展和前沿研究[J];统计与信息论坛;2008年02期
7 魏瑞斌;陈丹丹;琚兴;;高校机构知识库的应用研究[J];知识管理论坛;2013年05期
8 周舒冬;张磊;李丽霞;;基于K近邻的过抽样算法在不平衡的医学资料中的应用[J];中国卫生统计;2008年06期
9 任卓明;邵凤;刘建国;郭强;汪秉宏;;基于度与集聚系数的网络节点重要性度量方法研究[J];物理学报;2013年12期
10 胡兆龙;刘建国;任卓明;;基于节点度信息的自愿免疫模型研究[J];物理学报;2013年21期
中国博士学位论文全文数据库 前2条
1 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
2 苟建平;模式分类的K-近邻方法[D];电子科技大学;2013年
本文编号:675556
本文链接:https://www.wllwen.com/kejilunwen/yysx/675556.html