基于密度聚类算法和等距离映射预测蛋白质功能模块算法的研究
发布时间:2020-06-05 09:33
【摘要】:一个生命体内所有蛋白质之间的相互作用形成了蛋白质相互作用(Protein-Protein Int eraction,PPI)网络,利用该网络可以识别与分析细胞环境中蛋白质分子的相互作用,以便深入理解蛋白质分子相互作用与执行功能的机制,帮助预测未知的蛋白质功能。智能优化算法在蛋白质功能预测研究领域已经得到深入研究,但是蛋白质功能预测的精确率、执行效率还有待提高,并且PPI网络中各种数据噪声影响也是一个问题。聚类算法是智能优化算法在蛋白质功能预测研究中的重要部分,因此本文通过研究已有基于PPI网络的聚类算法,深入了解各种聚类算法的优缺点,然后针对当前存在问题,提出基于密度聚类算法和等距离映射的蛋白质功能模块预测算法。本文所做主要工作如下所述。(1)基于PPI网络的聚类算法分类及比较。本文根据PPI网络的特征属性将其划分为基于PPI网络的单元聚类算法和基于PPI网络的多元聚类算法。根据蛋白质功能模块检测算法涉及单个蛋白质元素特征或考虑多个蛋白质特征本文把这些聚类算法分为单元聚类算法和多元聚类算法。单元聚类算法是逐个考虑每个蛋白质元素的特征,再对数据进行聚类;多元聚类算法是同时考虑多个蛋白质元素特征,综合多个特征进行聚类,从而得到不同的簇。(2)近些年来密度聚类算法广泛应用到蛋白质功能模块预测中,传统的密度聚类算法存在聚类精确度低和执行效率低的问题,首先对密度聚类算法进行改进,对PPI网络中低密度局部节点区域搜索能力进行改进,该算法对PPI网络进行聚类,获得其蛋白质功能模块的簇。密度聚类算法每次聚类时从局部最大密度数据出发进行聚类分析,最后获得蛋白质功能模块。(3)由于聚类分析后所获得的蛋白质簇维数过高,影响最终蛋白质功能模块预测的结果。针对这一个问题,对等距映射降维算法进行改进。根据局部线性原理,利用任意簇的图形建立矩阵;利用MDS算法获取高维数据的低维表示,使得降维后数据点之间保持高维数据点之间的测地线距离关系。最后完成高维到低维的数据处理。(4)针对目前预测蛋白质功能模块算法的精确率、执行效率及数据噪声问题,提出基于密度聚类算法和等距离映射的蛋白质功能模块预测算法。根据PPI网络中的核心节点、各节点位置、PPI网络结构这三个重要信息作为预测蛋白质功能模块的重要属性,使用上述改进密度聚类算法进行聚类分析,再使用上述改进等距映射降维算法对聚类后的数据进行主成份分析。然后利用多层感知器进行训练。最后对所提出的算法和现在几种主流预测蛋白质功能模块算法进行数据实验,实验结果表明所提出算法比当前主流算法在精确率、执行效及降低数据噪声方面均具有明显提高,表明所提出算法在改善这个三个指标方面是有效的。综上所述,针对目前智能算法在基于PPI网络的蛋白质功能预测研究领域存在的问题,本文通过对智能算法中的各种聚类算法进行比较研究,然后在此基础上提出基于密度聚类和等距离映射的蛋白质功能预测算法,数据实验表明该算法是有效的。基于PPI网络的蛋白质功能预测研究领域还有很多问题,还需要进行深入研究。
【图文】:
南宁师范大学硕士学位论文1,0,ijY 预测功能模块被功能术语注释预测功能模块未被功能术语注释述定义,以PPI网络为样本、已知蛋白质功能模块术语为样本标签,将预化为多标签二分类问题。密度聚类和等距映射蛋白质功能模块算法基本流程1所示,LPMM算法总共分成四个部分:数据的输入、训练模型、功能模块先,输入的数据为已知蛋白质功能模块相互作用注释术语数据和PPI网络置、PPI网络结构、核心节点),然后将所输入的数据进行归一化处理;分类器本别进行训练、分类;最后,,选择功能模块、输出预测结果。
图4-2 DBSCAN算法流程BSCAN算法存在两个缺点,第一,DBSCAN算法需要在没先验的条件下进行对领域半径d和的设置,这两个参数影响着聚类结果的形成,特别在PPI网络节点不是特别稠密时,会的数据噪声;第二,DBSCAN算法在处理大规模数据的时间复杂度较高。2 改进密度聚类算法的描述BSCAN算法存在数据噪声和时间复杂度较高等问题。本文对密度聚类算法改进(Localy-Based Methods,LDBM),LDBM算法首先计算局部最大密度,将局部最大密度作为第节点进行聚类,形成第一个簇;然后再从剩余未被聚类的PPI网络节点中找出最大密度一个簇的最大密度核心节点进行聚类;反复进行上述过程,最后设定一个阈值条件,PI网络的局部密度达到所限定阈值时不再继续进行聚类,将稀疏的PPI网络节点作为噪
【学位授予单位】:南宁师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q811.4;TP311.13
【图文】:
南宁师范大学硕士学位论文1,0,ijY 预测功能模块被功能术语注释预测功能模块未被功能术语注释述定义,以PPI网络为样本、已知蛋白质功能模块术语为样本标签,将预化为多标签二分类问题。密度聚类和等距映射蛋白质功能模块算法基本流程1所示,LPMM算法总共分成四个部分:数据的输入、训练模型、功能模块先,输入的数据为已知蛋白质功能模块相互作用注释术语数据和PPI网络置、PPI网络结构、核心节点),然后将所输入的数据进行归一化处理;分类器本别进行训练、分类;最后,,选择功能模块、输出预测结果。
图4-2 DBSCAN算法流程BSCAN算法存在两个缺点,第一,DBSCAN算法需要在没先验的条件下进行对领域半径d和的设置,这两个参数影响着聚类结果的形成,特别在PPI网络节点不是特别稠密时,会的数据噪声;第二,DBSCAN算法在处理大规模数据的时间复杂度较高。2 改进密度聚类算法的描述BSCAN算法存在数据噪声和时间复杂度较高等问题。本文对密度聚类算法改进(Localy-Based Methods,LDBM),LDBM算法首先计算局部最大密度,将局部最大密度作为第节点进行聚类,形成第一个簇;然后再从剩余未被聚类的PPI网络节点中找出最大密度一个簇的最大密度核心节点进行聚类;反复进行上述过程,最后设定一个阈值条件,PI网络的局部密度达到所限定阈值时不再继续进行聚类,将稀疏的PPI网络节点作为噪
【学位授予单位】:南宁师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q811.4;TP311.13
【参考文献】
相关期刊论文 前7条
1 张毅;;基于神经网络的蛋白质序列分类算法研究[J];计算机与数字工程;2012年06期
2 吴超;钟一文;;蛋白质功能预测的蚁群优化算法[J];广西师范大学学报(自然科学版);2011年03期
3 林晓丽;;神经网络在蛋白质折叠预测中的应用[J];科技创业月刊;2011年04期
4 曲良东;何登旭;;一种混沌人工鱼群优化算法[J];计算机工程与应用;2010年22期
5 李松倍;谢江;张武;武频;;蛋白质相互作用网络的相似子网搜索问题研究[J];计算机工程与应用;2010年03期
6 刘智s
本文编号:2697848
本文链接:https://www.wllwen.com/projectlw/swxlw/2697848.html