基于稀疏表示分类器的蛋白质相互作用预测研究
发布时间:2021-03-27 06:26
自然界中影响生命现象发生的因素多种多样,也必然离不开蛋白质的参与。多种蛋白质相互作用交织成网络,调节重要的生命活动。在承担生命活动时,蛋白质的表现是多样的、动态的,这就需要对蛋白质之间的关系进行研究。蛋白质相互作用(PPI)分析研究可以帮助研究癌症的发生机制,设计新的药物标靶,并支持新药物的发展。随着蛋白质组学研究进入大数据时代,生物分子学及相关领域研究人员迅速获得了许多实验数据。然而,使用生物实验方法对这些数据进行研究耗时长,成本高。鉴于此,本文采用计算方法进行蛋白质相互作用预测,设计了一个基于多变量互信息的蛋白质相互作用预测模型FTCP-WSRC,主要研究工作如下:一、设计新的蛋白质序列的表示方法FCTP模型,该模型通过F向量,C描述符和T描述符的结合,将每个蛋白质序列映射到数字特征向量上,提取了蛋白质序列所包含的有效信息。二、采用有效的特征提取方法主成分分析(PCA)来提取最具辨别力的新特征子集。利用PCA处理后的数据极大地降低了时间复杂度,提高了计算机对数据的处理能力。三、基于加权稀疏表示分类器(WSRC)进行预测,得到了很好的预测结果。为了验证FCTP-WSRC模型的有效性,...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
图2-2描述符C和描述符T的建立过程??对于子序列‘AATWTFAAACATAPDAADAG’,利用公式(5)二进制编码为??‘11000011101010011010’
?山东大学硕士学位论文???A?B??4?4??-?s??F向量+?C福或符+T指連符|??I ̄ ̄ ̄T ̄??f440堆向量j?f440维■向量j??PCA?PCA??V?v??门〇维向量J?「30维向量J??'?r?1??「60维?向量j??图2-3?FCTP方法中特征向量的重构过程??2.?5本章小结??本章主要介绍了蛋白质相互作用数据集的获取与预处理方法,给出了一个新??的蛋白质表示方法FTCP,构建了蛋白质序列的数字特征向量。F向量、C描述??符和T描述相结合的方法包含了蛋白质序列中的有效信息。为了提高模型的运??算效率,对蛋白质特征向量采用了有效的特征提取方法PCA,构建了最具辨别??力的新特征子集。??15??
?山东大学硕士学位论文???第三章预测模型和评价方法??3.1支持向置机??目前,机器学习方法已经被广泛应用于人像识别、文本分类和生物信息等需??要模式识别的各个领域。支持向量机(Support?Vector?Machine,?SVM)进行有监??督的学习[351,最早在1995年由Cortes?C.等人首次提出。这种方法本质上基于统计??学中的VC维理论以及机构风险最小化原则。支持向量机最早是一种二分类模型,??经过演进,引入了核函数,现在既能处理多元线性问题,也能处理非线性和回归??问题。其优势表现在小样本、非线性、高维数模式识别和局部极小点等课题。它??的思想是寻找一个最优的超平面对样本进行分割,使得样本间隔最大化,最终转??化为一个凸二次规划问题来求解。在线性可分情况下最优分类面的构造如下图:??t??图3-1?SVM最优分类面的构造??设训练样本集包括N个线性可分的样本:x?=?且为e??{+1,-1}是类别变量,±1是标签。支持向量机的目标是通过找到唯一的最大化间??隔面使得分类更加精确。在线性可分的情况下,这个超平面用函数f(x)?=?o/x?+?b??表不,其中是法向重,b为位移重。+?b?2?+1时,)/j?==?+1;?+?b?S?-1时,??%?-1,距离超平面最近的这几个样本点满足%(〇/;^?+?b)?=?1,它们被称为“支??持向量”。训练集中存在一些异常点是不可避免的,这会导致训练集线性不可分。??16??
本文编号:3103062
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
图2-2描述符C和描述符T的建立过程??对于子序列‘AATWTFAAACATAPDAADAG’,利用公式(5)二进制编码为??‘11000011101010011010’
?山东大学硕士学位论文???A?B??4?4??-?s??F向量+?C福或符+T指連符|??I ̄ ̄ ̄T ̄??f440堆向量j?f440维■向量j??PCA?PCA??V?v??门〇维向量J?「30维向量J??'?r?1??「60维?向量j??图2-3?FCTP方法中特征向量的重构过程??2.?5本章小结??本章主要介绍了蛋白质相互作用数据集的获取与预处理方法,给出了一个新??的蛋白质表示方法FTCP,构建了蛋白质序列的数字特征向量。F向量、C描述??符和T描述相结合的方法包含了蛋白质序列中的有效信息。为了提高模型的运??算效率,对蛋白质特征向量采用了有效的特征提取方法PCA,构建了最具辨别??力的新特征子集。??15??
?山东大学硕士学位论文???第三章预测模型和评价方法??3.1支持向置机??目前,机器学习方法已经被广泛应用于人像识别、文本分类和生物信息等需??要模式识别的各个领域。支持向量机(Support?Vector?Machine,?SVM)进行有监??督的学习[351,最早在1995年由Cortes?C.等人首次提出。这种方法本质上基于统计??学中的VC维理论以及机构风险最小化原则。支持向量机最早是一种二分类模型,??经过演进,引入了核函数,现在既能处理多元线性问题,也能处理非线性和回归??问题。其优势表现在小样本、非线性、高维数模式识别和局部极小点等课题。它??的思想是寻找一个最优的超平面对样本进行分割,使得样本间隔最大化,最终转??化为一个凸二次规划问题来求解。在线性可分情况下最优分类面的构造如下图:??t??图3-1?SVM最优分类面的构造??设训练样本集包括N个线性可分的样本:x?=?且为e??{+1,-1}是类别变量,±1是标签。支持向量机的目标是通过找到唯一的最大化间??隔面使得分类更加精确。在线性可分的情况下,这个超平面用函数f(x)?=?o/x?+?b??表不,其中是法向重,b为位移重。+?b?2?+1时,)/j?==?+1;?+?b?S?-1时,??%?-1,距离超平面最近的这几个样本点满足%(〇/;^?+?b)?=?1,它们被称为“支??持向量”。训练集中存在一些异常点是不可避免的,这会导致训练集线性不可分。??16??
本文编号:3103062
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3103062.html