基于混合特征的蛋白质分类问题研究
发布时间:2024-12-22 01:41
蛋白质在生物体活动中扮演着重要角色。各种各样的蛋白质凭借其独特的结构和功能在生物体内各司其职,发挥着不可替代的作用。蛋白质识别是探究蛋白质生物学功能的第一步,做好蛋白质识别工作可为后续研究奠定坚实基础。自人类基因组计划实施以来,未知结构与功能的蛋白质序列数量迅猛发展,传统的生物实验来分类识别蛋白质序列已经无法满足当今时代对速度的需求,所以众多研究者们将机器学习算法应用在了蛋白质分类研究中。目前在蛋白质分类识别中,仍然存在一些问题:数据集类别不平衡;未很好地用数字形式将蛋白质序列信息表示出来;特征集中存在无效特征或特征之间存在冗余性;分类算法选用不恰当等。本文通过总结现有模型存在的这些问题,分别对噬菌体蛋白质、电子传递蛋白的分类进行了探究。在噬菌体蛋白质分类识别中,本文通过综合多个角度的信息提取蛋白质的信息,并通过特征组合的形式实现各个类型特征集之间的信息互补。然后,本文通过特征选择算法将特征与类别之间具备强相关性、特征与特征之间存在低冗余性的特征挑选出来,并对特征集中的特征进行排序。在随机森林算法下,通过计算每一维特征添加进特征集后的性能指标,得到每种类型特征集的最优特征子集。最后通过对...
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究意义及背景
1.2 国内外研究现状
1.3 本文主要研究内容
1.3.1 噬菌体蛋白的识别
1.3.2 电子传递蛋白的识别
1.4 论文结构安排
1.5 本章小结
第2章 相关理论基础
2.1 数据集获取及优化
2.1.1 数据集的获取
2.1.2 序列组成及文件格式
2.1.3 序列的去冗余处理
2.1.4 类别不平衡问题
2.1.5 交叉验证
2.2 基本的特征提取方式
2.2.1 氨基酸组成
2.2.2 氨基酸的理化性质
2.2.3 n-gram
2.2.4 位置特异性得分矩阵
2.3 特征选择算法
2.3.1 过滤式类型
2.3.2 包裹式类型
2.3.3 MRMD算法
2.4 分类算法
2.4.1 朴素贝叶斯
2.4.2 支持向量机
2.4.3 决策树
2.4.4 集成思想
2.4.5 随机森林
2.5 性能评价准则
2.5.1 基本性能评价指标
2.5.2 更具鉴别力的性能评价指标
2.6 本章小结
第3章 噬菌体蛋白的识别研究
3.1 噬菌体蛋白的特征提取
3.2 特征组合
3.3 实验结果与分析
3.3.1 不同分类器的分类效果
3.3.2 不同类型特征提取方式的性能
3.3.3 特征选择的重要性
3.3.4 与最近方法对比
3.3.5 八种理化性质的影响分析
3.4 本章小结
第4章 电子传递蛋白的识别研究
4.1 不平衡数据集的处理
4.2 电子传递蛋白的特征提取
4.2.1 DT算法
4.2.2 ACC-PSSM算法
4.3 实验结果与分析
4.3.1 获取共同特征
4.3.2 最优特征提取方式
4.3.3 不同分类算法的性能
4.3.4 特征组合的有效性
4.3.5 模型的泛化能力
4.3.6 有效特征的正反例数据分布
4.3.7 本模型的优点
4.4 本章小结
结论
参考文献
致谢
作者简介
攻读硕士学位期间发表的论文和科研成果
本文编号:4019241
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究意义及背景
1.2 国内外研究现状
1.3 本文主要研究内容
1.3.1 噬菌体蛋白的识别
1.3.2 电子传递蛋白的识别
1.4 论文结构安排
1.5 本章小结
第2章 相关理论基础
2.1 数据集获取及优化
2.1.1 数据集的获取
2.1.2 序列组成及文件格式
2.1.3 序列的去冗余处理
2.1.4 类别不平衡问题
2.1.5 交叉验证
2.2 基本的特征提取方式
2.2.1 氨基酸组成
2.2.2 氨基酸的理化性质
2.2.3 n-gram
2.2.4 位置特异性得分矩阵
2.3 特征选择算法
2.3.1 过滤式类型
2.3.2 包裹式类型
2.3.3 MRMD算法
2.4 分类算法
2.4.1 朴素贝叶斯
2.4.2 支持向量机
2.4.3 决策树
2.4.4 集成思想
2.4.5 随机森林
2.5 性能评价准则
2.5.1 基本性能评价指标
2.5.2 更具鉴别力的性能评价指标
2.6 本章小结
第3章 噬菌体蛋白的识别研究
3.1 噬菌体蛋白的特征提取
3.2 特征组合
3.3 实验结果与分析
3.3.1 不同分类器的分类效果
3.3.2 不同类型特征提取方式的性能
3.3.3 特征选择的重要性
3.3.4 与最近方法对比
3.3.5 八种理化性质的影响分析
3.4 本章小结
第4章 电子传递蛋白的识别研究
4.1 不平衡数据集的处理
4.2 电子传递蛋白的特征提取
4.2.1 DT算法
4.2.2 ACC-PSSM算法
4.3 实验结果与分析
4.3.1 获取共同特征
4.3.2 最优特征提取方式
4.3.3 不同分类算法的性能
4.3.4 特征组合的有效性
4.3.5 模型的泛化能力
4.3.6 有效特征的正反例数据分布
4.3.7 本模型的优点
4.4 本章小结
结论
参考文献
致谢
作者简介
攻读硕士学位期间发表的论文和科研成果
本文编号:4019241
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/4019241.html