当前位置:主页 > 管理论文 > 统计学论文 >

基于最优g-gap双肽的癌症凝集素预测

发布时间:2020-05-27 10:40
【摘要】:凝集素是细胞识别分子之一。凝集素是一种可以与糖结合的蛋白,它们与糖结合的位点通常在一个以上。当它们与细胞发生反应时,不仅会与细胞表面的糖结合,还会引起细胞交联和随后的沉淀,这种现象称为细胞凝集。到目前为止,几乎所有的生物,包括病毒、细菌、植物、脊椎动物和无脊椎动物都被发现能够合成和分泌凝集素。癌症凝集素是与癌症有着不可分割的联系的凝集素,已知在癌症的发生、生存、生长、转移和扩散中发挥着多种重要作用。因此,从众多的凝集素中筛选出特定的凝集素,不仅对于肿瘤标志物的发现和肿瘤治疗具有重要意义,对于更好地了解和攻克癌症也具有重要意义。近年来,蛋白质组学研究受到的关注越来越多,传统预测方法已经无法满足大量的呈指数型增长的蛋白质数据的分析需求,所以开发新的更加高效的计算方法研究蛋白质分类预测问题是必要的。本文使用了已有文献中构建完备并广泛采用的标准数据集,该基准数据集来源于CancerlectinsDB数据库,由178条癌症凝集素序列与226条非癌症凝集素序列组成。构造了融合g-gap双肽组成的特征提取算法,运用方差分析进行特征选择,并用SVM对数据进行训练,构建了一个新的分类模型,最终得到该分类模型的预测准确率为83.91%,灵敏度为83.15%,已有研究中Hong-Yan Lai~([5])等人的方法的实验结果最好,分类模型预测准确率与灵敏度分别为77.48%、75.28%,对比可见本文的分类模型在预测精度与灵敏度上均有较大提高,说明本文的分类模型提高了对于癌症凝集素样本的正确识别的能力。同时,为了验证本文构建的分类模型的分类效果,从NCBI数据库中选取了30个2012年之后入库的新的癌凝素样本,对新数据集的预测精度达到83.3%,正确识别了25个癌凝素样本,说明本文的分类模型是有效的。
【图文】:

红细胞凝集,显微镜下,现象


通过表面分子选择性与其他分子相结合,是细胞发育与分化过程中的重要环节例如受精、胚胎形成、免疫防御、病原体对宿主的侵染及致病等现象。细胞识别功能发生异常可能会导致疾病,例如白细胞和血小板粘附的缺陷会分别导致细菌感染和粘膜出血的复发。此外,异常的细胞识别被认为是不受控制的细胞生长和运动的基础,这是肿瘤转化和转移的特征。因此,理解细胞表面编码的分子,对生物学和医学等许多领域都有意义[1]。凝集素是细胞识别分子之一。凝集素源自拉丁语" legere ",是专门识别和结合存在于其他蛋白质上的碳水化合物部分的生物分子[2],在自然界中无处不在。凝集素是一种可以与糖结合的蛋白,与糖结合的位点通常在一个以上,大多数凝集素在识别存在于其他蛋白质上的糖分子部分时具有高度的特异性和选择性[3],并在不引起结合碳水化合物发生任何变化的情况下可逆地、非共价地与它们结合,但缺乏催化活性[4]。当它们与细胞发生反应时,不仅会与细胞表面的糖结合还会引起细胞交联和随后的沉淀,,这种现象称为细胞凝集[4]。图 1.1 左侧为红细胞未凝集时的状态,细胞是分散的,右侧为加入土豆凝集素后,红细胞发生凝集大量的红细胞凝集使显微镜下的红细胞凝集部分颜色很深。

超平面,样本,远点,决策规则


图 3.2 划分两个样本的超平面有多个[23]平面( )可由以下方程来表示: = 量 = ; ; ; 是法向量,决定超平面的方向,b 是位移项,远点之间的距离。样本空间中任意点 x 到超平面( b)的距离= . 么对于 ∈ D,SVM 的决策规则如下所示:= → = → = =
【学位授予单位】:湘潭大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:C81

【相似文献】

相关硕士学位论文 前1条

1 钱丽丽;基于最优g-gap双肽的癌症凝集素预测[D];湘潭大学;2019年



本文编号:2683406

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2683406.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户446ff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com