集成多类特征及分类器的DNA结合蛋白质堆叠预测模型研究
发布时间:2024-02-24 18:25
DNA结合蛋白对DNA修复、DNA复制和DNA修改等生命过程有着重要的意义。使用X射线晶体等实验手段解决预测DNA结合蛋白的问题不仅费时且成本高。目前已经提出很多仅基于序列信息使用机器学习来识别DNA结合蛋白的方法。在这些方法中,关键性的工作在于构建序列的有效表达以及选择合适的分类器。衡量不同的特征与分类器的匹配程度以及不同特征的贡献这两个工作,对于预测性能的提高和生物实验的设计有重要意义。本文提出了堆叠模型来预测DNA结合蛋白,该模型结合了多类特征提取方法,也考虑了特征提取方法和分类器之间的匹配,该模型分为两层,第一层为支持向量机,第二层为逻辑回归。首先,使用四种特征提取方法分别训练第一层的SVM分类器,得到四个不同的SVM分类器,之后,使用逻辑回归结合四个SVM的预测概率,得到模型的输出结果。四种特征提取方法分别为LocalDPP,PSSMDWT,188D以及使用自协方差提取预测的蛋白质二级结构信息的方法。前两个方法是基于序列的进化信息;188D则是基于序列的物化属性和序列组成。堆叠模型在训练集PDB1075上的准确率为83.53%,在独...
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
本文编号:3909431
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图4-1第一种预测器的四个基分类器的系数
天津大学硕士学位论文32在第一种预测器,见图4-1,即仅使用SVM作为基分类器的预测器中,见图4-1,PSSM_DWT对于最终的结果预测产生最重要的作用,其次是Local_DPP方法。这两种特征提取方法结合SVM分类器,在五折交叉验证过程中,都比较稳定,其他两种特征提取方法比较依....
图4-2第二种预测器的8个基分类器的系数
第4章实验结果及分析33图4-2第二种预测器的8个基分类器的系数图4-3第三种预测器的12种基分类器的系数
图4-3第三种预测器的12种基分类器的系数
第4章实验结果及分析33图4-2第二种预测器的8个基分类器的系数图4-3第三种预测器的12种基分类器的系数
图4-4第一种预测器的t检验
天津大学硕士学位论文344.5对于3种预测器的不同基分类器进行t检验分析为了观察三种预测器的显著性差异,本文采用五折交叉验证的方法对每种预测器进行t检验。结果见图4-4到图4-6。图4-4第一种预测器的t检验。Y轴表示p值和阈值间的差距,y值越大,p值与阈值间的差距越大;x轴表示....
本文编号:3909431
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3909431.html