基于卷积神经网络的蛋白质折叠类型最小特征提取
发布时间:2021-07-23 07:37
通过蛋白质的序列、结构等信息构建完整的蛋白质宇宙是生物信息学中的重要课题,相关研究对蛋白质结构预测、蛋白质进化路径分析以及蛋白质结构设计等方面的研究都有重要的意义.从蛋白质结构的一种简化表示——蛋白质接触图出发,通过训练卷积神经网络进行特征提取,筛选出可识别结构域折叠类型的最小特征向量,构建蛋白质折叠类型空间,并使用谱聚类等方法对不同蛋白质折叠类型的高维分布情况进行分析.得到的最小特征向量兼顾了信息的完整性与冗余度,可以很好地表示全部七种常见蛋白质类的空间关联.该研究结果填补了之前蛋白质宇宙研究中对不常见类的空间位置和相互关系描述的空白,加深了对于蛋白质结构相似性的理解.
【文章来源】:南京大学学报(自然科学). 2020,56(05)北大核心CSCD
【文章页数】:10 页
【部分图文】:
输出不同特征向量长度的DCNN在验证集中进行折叠类型识别的正确率;(B)对应不同折叠类型特征向量长度条件下调整兰德系数与聚类簇数目的关系
本文所使用的DCNN修改自Zhu et al[20]提出的模型,并使用Tensorflow[21]构建如图2所示的网络结构.图2中,h与w表示卷积层的高度与宽度,c表示卷积层中的通道数量,s表示卷积核或池化窗口的滑动步长,l表示全连接层中的神经元数量.
本模型对原模型的修改主要体现在:(1)设计了一个神经元数目可控的全连接层,即特征层(feature layer),通过严格控制特征向量层中的神经元数目,将注意力集中在那些对识别蛋白质结构分类更关键的特征中.(2)本DCNN模型中不仅仅输出所需识别蛋白质接触图的折叠类型信息,还输出它在SCOPe层次分类中的类标签信息,总体的损失函数定义为这两种识别结果与真实标签间交叉熵损失函数之和.通过这种方法可以提升不同类标签的折叠类型在特征向量表示中的分离度,使提取出的特征向量在空间中的分布和SCOPe层级分类更接近.网络的损失函数具体如式(2)所示:
本文编号:3298873
【文章来源】:南京大学学报(自然科学). 2020,56(05)北大核心CSCD
【文章页数】:10 页
【部分图文】:
输出不同特征向量长度的DCNN在验证集中进行折叠类型识别的正确率;(B)对应不同折叠类型特征向量长度条件下调整兰德系数与聚类簇数目的关系
本文所使用的DCNN修改自Zhu et al[20]提出的模型,并使用Tensorflow[21]构建如图2所示的网络结构.图2中,h与w表示卷积层的高度与宽度,c表示卷积层中的通道数量,s表示卷积核或池化窗口的滑动步长,l表示全连接层中的神经元数量.
本模型对原模型的修改主要体现在:(1)设计了一个神经元数目可控的全连接层,即特征层(feature layer),通过严格控制特征向量层中的神经元数目,将注意力集中在那些对识别蛋白质结构分类更关键的特征中.(2)本DCNN模型中不仅仅输出所需识别蛋白质接触图的折叠类型信息,还输出它在SCOPe层次分类中的类标签信息,总体的损失函数定义为这两种识别结果与真实标签间交叉熵损失函数之和.通过这种方法可以提升不同类标签的折叠类型在特征向量表示中的分离度,使提取出的特征向量在空间中的分布和SCOPe层级分类更接近.网络的损失函数具体如式(2)所示:
本文编号:3298873
本文链接:https://www.wllwen.com/projectlw/swxlw/3298873.html