基于改进的边聚集系数和K近邻算法的关键蛋白识别研究

发布时间：2017-08-15 01:07

本文关键词：基于改进的边聚集系数和K近邻算法的关键蛋白识别研究

【摘要】：复杂网络被定义为一类由现实复杂系统抽象出来，并表现出高度复杂性的网络。现实生活中，我们总是处在不同的网络中，同时整个社会也被不同的网络所覆盖，如金融网、因特网、工作网、朋友圈、交通网、犯罪网等，因此深入研究复杂网络，对于我们的生活、工作都具有重大指导意义。生物体内存在着大量蛋白质，根据它们对生物体的重要性可以分为两类：关键蛋白质和非关键蛋白质。关键蛋白质是指能够帮助生物体实现某些功能，并且丢失后会对生物体造成巨大影响的一类蛋白质，由此可见，它对于生物体的生存、正常工作意义重大。同时，通过计算机从复杂的蛋白质交互网络中识别关键蛋白质，已经成为当今研究的一大热点。现阶段该领域已有一些经典算法，如度中心性算法、介数中心性算法、紧密度中心性算法等，但是以上算法都只关注了节点在网络中的重要性，而忽略了边作为连接节点之间桥梁所具有的重要性。接着，便有研究者引入边聚集系数ECC（edge clusteringcoefficient，ECC），提出了新型中心度算法NC（new centrality，NC）、基于排除思想的剥落排序算法等，但是上述这些算法都存在两个共同问题：既没有将网络中的节点和边的双重特性有效结合起来，也没有综合考虑每种算法的优势。针对上述问题，本文首先引入点聚集系数C（clustering coefficient，C）和边聚集系数ECC，并在此基础上，提出改进的边聚集系数IECC（improved edge clusteringcoefficient，IECC），和一种融合点和边双重拓扑特性的算法NEC（node and edge clusteringcoefficient，NEC）。接着，本文引入了机器学习中的K近邻（K-Nearest Neighbor，简称KNN）算法。由于传统KNN算法容易产生过拟合或欠拟合，于是本文采用Bootstrap重抽样技术对KNN算法改进，改进后的新型蛋白质预测模型定义为bootstrap k-nearest neighbor模型（简称Bootstrap-KNN）。Bootstrap-KNN对每个节点的识别都综合了多种关键节点识别方法的评分，由于不同算法对不同网络结构的适用性，本文提出的方法使预测结果更加客观，而且适用性更强。为了验证本文提出的改进算法NEC和Bootstrap-KNN模型的有效性，本文利用DIP（dataset of interacting proteins，DIP）数据集中的酵母蛋白质网络进行仿真实验。通过对实验结果中各项评价指标进行分析对比，，结果显示NEC算法的预测准确率等多项指标均高于大部分传统算法，并且Bootstrap-KNN模型对应的预测准确率等多项指标均高于NEC算法，这些改进能够为生物学中关键蛋白质的预测提供有效指导。
【关键词】：复杂网络 重要节点 机器学习 K近邻 Bootstrap-KNN模型
【学位授予单位】：吉林大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：O157.5;TP181
【目录】：

摘要4-6
Abstract6-11
第1章绪论11-18
1.1 课题研究背景11-14
1.2 领域研究现状14-15
1.3 本文主要工作15-16
1.4 本文组织结构16-18
第2章复杂网络与机器学习概述18-30
2.1 复杂网络概述18-19
2.1.1 复杂网络研究背景18
2.1.2 复杂网络的发展18-19
2.2 复杂网络结构特性及分析19-23
2.2.1 小世界特性19-20
2.2.2 无标度特性20-21
2.2.3 平均路径长度21-22
2.2.4 集聚系数22
2.2.5 节点度和度分布22-23
2.3 传统关键节点识别算法概述23-28
2.3.1 度中心性算法 DC23-24
2.3.2 介数中心性算法 BC24-25
2.3.3 紧密度中心性算法 CC25-26
2.3.4 特征向量中心性算法 EC26
2.3.5 子图中心性算法 SC26-27
2.3.6 信息流量中心性算法 IC27-28
2.4 机器学习概述28-29
2.4.1 机器学习定义28
2.4.2 机器学习重要性28-29
2.4.3 机器学习与数据挖掘29
2.5 本章小结29-30
第3章基于节点和边的新型关键节点识别算法30-35
3.1 点聚集系数 C30
3.2 边聚集系数 ECC30-31
3.3 新中心性算法 NC31-32
3.4 本文改进算法32-33
3.4.1 改进的边聚集系数 IECC32
3.4.2 改进算法 NEC32-33
3.5 本章小结33-35
第4章基于改进的 K 近邻算法的关键蛋白识别研究35-41
4.1 K 近邻算法35-36
4.1.1 K 近邻介绍35
4.1.2 K 近邻的应用35-36
4.2 K 近邻算法改进36-38
4.2.1 Bootstrap-KNN 模型36-37
4.2.2 Bootstrap-KNN 模型特征归一化37-38
4.2.3 Bootstrap 抽样技术38
4.3 Bootstrap-KNN 模型预测关键蛋白质38-40
4.4 本章小结40-41
第5章实验仿真及结果分析41-52
5.1 实验数据集41
5.2 实验环境41
5.3 实验评价指标41-43
5.3.1 敏感度42
5.3.2 特异性42
5.3.3 阳性预测值42
5.3.4 阴性预测值42-43
5.3.5 F-指标43
5.3.6 准确率43
5.4 NEC 实验结果及分析43-47
5.5 Bootstrap-KNN 实验结果及分析47-51
5.6 本章小结51-52
第6章总结与展望52-54
6.1 总结52-53
6.2 展望53-54
参考文献54-58
作者简介及在学期间所取得的科研成果58-59
致谢59

【参考文献】

中国期刊全文数据库前10条

1 卢国祥;;归一化Alignment距离[J];工程数学学报;2014年01期

2 刘咏梅;彭琳;赵振军;;基于小世界网络的微博谣言传播演进研究[J];复杂系统与复杂性科学;2014年04期

3 赫南;李德毅;淦文燕;朱熙;;复杂网络中重要性节点发掘综述[J];计算机科学;2007年12期

4 胡健;董跃华;杨炳儒;;大型复杂网络中的社区结构发现算法[J];计算机工程;2008年19期

5 何清;李宁;罗文娟;史忠植;;大数据下的机器学习算法综述[J];模式识别与人工智能;2014年04期

6 谢益辉;朱钰;;Bootstrap方法的历史发展和前沿研究[J];统计与信息论坛;2008年02期

7 魏瑞斌;陈丹丹;琚兴;;高校机构知识库的应用研究[J];知识管理论坛;2013年05期

8 周舒冬;张磊;李丽霞;;基于K近邻的过抽样算法在不平衡的医学资料中的应用[J];中国卫生统计;2008年06期

9 任卓明;邵凤;刘建国;郭强;汪秉宏;;基于度与集聚系数的网络节点重要性度量方法研究[J];物理学报;2013年12期

10 胡兆龙;刘建国;任卓明;;基于节点度信息的自愿免疫模型研究[J];物理学报;2013年21期

中国博士学位论文全文数据库前2条

1 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年

2 苟建平;模式分类的K-近邻方法[D];电子科技大学;2013年

本文编号：675556

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/yysx/675556.html

上一篇：一致连续条件下两类多维BSDE解的存在唯一性及稳定性
下一篇：基于节点重要性的复杂网络社团挖掘算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|