基于支持向量机的抗氧化蛋白质识别
发布时间:2023-03-10 19:25
自由基是不稳定分子,一旦自由基与身体内的原子结合就会发生链式反应,它们就会造成细胞中DNA损伤从而导致衰老和各种疾病的发生。抗氧化蛋白质是一种保护细胞免受自由基破坏的物质,准确识别抗氧化蛋白对于理解它们延缓衰老的作用和在相关疾病预防治疗方面非常重要。传统生物手段对蛋白质功能进行分析耗时费力,因此,发展识别抗氧化蛋白的计算方法是非常可取和急需的。本文所做的主要工作如下:1、为有效挖掘蛋白质序列中的特征信息,本文基于蛋白质序列一级结构融合氨基酸组成和g-gap二肽组合来描述蛋白质序列的特征信息。本文所用的特征提取方法具有计算简洁、高效快速、不需要借助其他信息的特点,能使分类器获得较好的分类效果。2、通过过采样技术将收集到的抗氧化蛋白质的数量平衡到与非抗氧化蛋白质数量一致,并对数据进行了归一化处理,排除了类别不平衡对分类准确度高估的影响。3、基于主成分分析方法进行特征降维,将420维特征降为230维。将数据投入支持向量机对蛋白质进行识别,并另找了20种经过实验证明的具有抗氧化性的蛋白质来验证本文所构建的模型,排除了模型过拟合的问题。本实验的预测准确度Acc达到了98.38%,对正样本的召回率...
【文章页数】:49 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 引言
§1.1 论文研究背景及意义
§1.2 国内外研究现状
§1.2.1 蛋白质特征提取
§1.2.2 蛋白质序列的分类方法
§1.3 本文的主要工作
§1.4 本文的结构安排
第二章 蛋白质序列的特征提取和分类方法
§2.1 蛋白质序列的特征提取
§2.1.1 基于氨基酸组成和位置特征提取方法
§2.1.2 基于氨基酸物理化学特性的特征提取算法
§2.1.3 基于位置特异性得分矩阵(P§§M)特征提取
§2.2 机器学习分类算法
§2.3 机器学习分类算法
§2.3.1 最优分离超平面
§2.3.2 核函数
§2.4 本章小结
第三章 基于支持向量机的抗氧化蛋白质识别
§3.1 数据的介绍和预处理
§3.1.1 数据冗余性的除去
§3.1.2 实验数据集的平衡
§3.2 蛋白质序列的特征提取及归一化
§3.3 基于支持向量机的抗氧化蛋白质识别
§3.3.1 数据降维
§3.3.2 参数寻优
§3.3.3 数据分类和检验
§3.4 实验结果与分析
§3.4.1 实验环境
§3.4.2 实验评价指标
§3.4.3 实验结果分析
§3.5 本章小结
第四章 总结与展望
§4.1 工作概述总结
§4.2 未来工作展望
参考文献
致谢
本文编号:3758420
【文章页数】:49 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 引言
§1.1 论文研究背景及意义
§1.2 国内外研究现状
§1.2.1 蛋白质特征提取
§1.2.2 蛋白质序列的分类方法
§1.3 本文的主要工作
§1.4 本文的结构安排
第二章 蛋白质序列的特征提取和分类方法
§2.1 蛋白质序列的特征提取
§2.1.1 基于氨基酸组成和位置特征提取方法
§2.1.2 基于氨基酸物理化学特性的特征提取算法
§2.1.3 基于位置特异性得分矩阵(P§§M)特征提取
§2.2 机器学习分类算法
§2.3 机器学习分类算法
§2.3.1 最优分离超平面
§2.3.2 核函数
§2.4 本章小结
第三章 基于支持向量机的抗氧化蛋白质识别
§3.1 数据的介绍和预处理
§3.1.1 数据冗余性的除去
§3.1.2 实验数据集的平衡
§3.2 蛋白质序列的特征提取及归一化
§3.3 基于支持向量机的抗氧化蛋白质识别
§3.3.1 数据降维
§3.3.2 参数寻优
§3.3.3 数据分类和检验
§3.4 实验结果与分析
§3.4.1 实验环境
§3.4.2 实验评价指标
§3.4.3 实验结果分析
§3.5 本章小结
第四章 总结与展望
§4.1 工作概述总结
§4.2 未来工作展望
参考文献
致谢
本文编号:3758420
本文链接:https://www.wllwen.com/projectlw/swxlw/3758420.html
教材专著