蛋白质、RNA修饰位点预测的机器学习方法及应用研究
发布时间:2024-05-11 19:48
大数据的到来,使得生物数据库中的序列数量呈指数型增加。从序列出发,分析蕴含在数据中的规律,已成为生物信息学的研究热点。蛋白质、RNA修饰与许多生命过程密切相关,并且在病理学方面发挥十分重要的作用。传统识别修饰位点的实验方法具有成本高、耗时耗力等缺点,机器学习方法能够准确高效的预测蛋白质、RNA修饰位点,推动蛋白质组学和基因组学的发展,促进对疾病发生机理的了解。本文对蛋白质及RNA修饰位点使用机器学习方法进行相关研究,主要内容如下:1.提出DNNAce的蛋白质乙酰化位点预测新方法。首先,融合二元编码、伪氨基酸组成、AAindex、NMBroto、分组重量编码、多元互信息、BLOSUM62、KNN对应的特征向量,得到初始特征搜索空间。其次,首次运用Group Lasso去除对乙酰化位点分类无关的特征,筛选出有效特征构成最优子集,降低特征空间维度。最后,利用深度神经网络对9个原核生物的乙酰化位点进行预测,运用10折交叉验证得到评价指标并和其它预测方法进行比较。结果表明,本文提出的DNNAce方法能进一步提高现有研究成果的预测精度,可为其它的蛋白质翻译后修饰位点预测提供一种新方法。2.提出St...
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
本文编号:3970320
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
图3-29个数据集乙酰化位点和非乙酰化位点附近的氨基酸对比图
青岛科技大学研究生学位论文35图3-29个数据集乙酰化位点和非乙酰化位点附近的氨基酸对比图Fig.3-2Comparisonofaminoacidsneartheacetylationsitesandnon-acetylationsitesof9datasets3.3.2特征提取....
图3-79个数据集特征的t-SNE可视化
蛋白质、RNA修饰位点预测的机器学习方法及应用研究46正负样本两个类别能够清楚地分开。特征可视化表明DNNAce可以提取用于预测的有用特征,分离多层网络结构处理后的正样本和负样本,展示深层结构的合理性和有效性。以上分析均表明,深度神经网络具有优越的特征学习能力。图3-79个数据集....
图4-2S.cerevisiae中m6A位点和非m6A位点之间核苷酸分布的差异Fig.4-2Nucleotidecompositionpreferenceofsequencesbetween
蛋白质、RNA修饰位点预测的机器学习方法及应用研究56图4-2S.cerevisiae中m6A位点和非m6A位点之间核苷酸分布的差异Fig.4-2Nucleotidecompositionpreferenceofsequencesbetweenm6Aandnon-m6Asites....
本文编号:3970320
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3970320.html