蛋白质亚细胞定位中的特征表达与降维算法研究
发布时间:2023-03-11 18:39
随着后基因组时代的进入,作为蛋白质组学的一项分支,蛋白质亚细胞定位研究的热度与日俱增。蛋白质亚细胞定位研究中,基于蛋白质氨基酸序列的特征表达在定位预测阶段扮演着重要角色;很大程度上,它决定了亚细胞定位结果的好坏。提取蛋白质特征表达以后,通常会面临“小样本,高维数”的问题;因此,为了降低计算开销、减少数据噪声及增强小样本数据集的鲁棒性,使用降维算法处理高维特征表达是必要的。基于此,本文对蛋白质亚细胞定位中的特征表达与降维算法进行了深入研究与分析。本文的主要工作及创新之处概括如下:1.蛋白质有4种基本的、分类性能依次递增的单特征表达:氨基酸组成(AAC)、二肽组成(DipC)、伪氨基酸组成(PseAAC)和位置特异性得分矩阵(PSSM)。为了提高蛋白质亚细胞定位预测准确率,构造信息量丰富的特征表达是有效的方法之一。为此,本文新提出了一种先加权后相加的特征融合模型,通过融合多种单特征表达以形成新型复合特征。实验结果表明该复合特征表达所包含信息量大于被融和的单特征表达。其次,本文基于PSSM提出了一种新特征表达——相关性位置特异性得分矩阵(CoPSSM),经实验验证,CoPSSM的分类性能优于...
【文章页数】:90 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 引言
1.2 本文研究背景及意义
1.3 蛋白质亚细胞定位的研究现状
1.4 本文的研究内容与创新点
1.5 本文的组织结构
第二章 蛋白质亚细胞定位的特征表达分析与分类技术
2.1 蛋白质氨基酸序列的特征表达方法
2.1.1 基于氨基酸组成(AAC)的特征表达
2.1.2 基于二肽组成(DipC)的特征表达
2.1.3 基于伪氨基酸组成(PseAAC)的特征表达
2.1.4 基于位置特异性得分矩阵(PSSM)的特征表达
2.1.5 基于伪位置特异性得分矩阵(PsePSSM)的特征表达
2.2 蛋白质亚细胞定位的分类算法
2.3 蛋白质亚细胞定位分类模型的检验方法与性能评估指标
2.3.1 分类模型的检验方法
2.3.2 分类模型性能评估指标
第三章 基于核技巧的非线性降维算法
3.1 核技巧的基本思想
3.2 常用的核函数
3.3 核主成分分析(Kernel Principal Component Analysis, KPCA)
3.4 核线性判别分析(Kernel Linear Discriminant Analysis,KLDA)
第四章 基于复合特征表达与核线性判别分析( KLDA)的蛋白质亚细胞定位预测
4.1 引言
4.2 融合特征表达模型
4.3 实验结果及分析
4.3.1 数据集
4.3.2 不同特征表达的总体预测识别率
4.3.3 基于PseAACPSSM与KLDA的蛋白质亚细胞定位预测
4.3.4 基于PseAACPSSM与KLDA的分类性能评估指标分析
4.3.5 对比实验结果分析
4.4 本章小结
第五章 基于复合核函数二重降维算法的蛋白质亚细胞定位预测
5.1 引言
5.2 融合核函数模型
5.3 实验结果及分析
5.3.1 数据集
5.3.2 整体预测识别率
5.3.3 各类别预测识别率
5.3.4 对比实验结果分析
5.4 本章小结
第六章 基于半监督式核主成分分析(KPCA)的蛋白质亚细胞定位预测
6.1 引言
6.2 半监督式KPCA模型
6.3 实验结果及分析
6.3.1 数据集
6.3.2 总体预测识别率
6.3.3 各类别预测识别率
6.3.4 分类性能评估指标分析
6.3.5 对比实验结果分析
6.4 本章小结
第七章 基于二分贪心遗传算法(DGGA)搜索核参数的蛋白质亚细胞定位预测
7.1 引言
7.2 二分贪心遗传算法(DGGA)
7.3 实验结果及分析
7.3.1 数据集
7.3.2 基于DGGA与KLDA整体降维的实验结果分析
7.3.3 基于相关性位置特异性得分矩阵(CoPSSM)与核线性判别分析(KLDA)的蛋白质亚细胞定位预测
7.3.3.1 相关性位置特异性得分矩阵(CoPSSM)
7.3.3.2 CoPSSM的分类性能分析
7.3.3.3 CoPSSM基于结合判别准则的KLDA与DGGA分类性能
7.3.4 对比实验结果分析
7.4 本章小结
第八章 总结与展望
8.1 全文工作总结
8.2 未来工作展望
参考文献
攻读硕士学位期间发表的学术论文与参与的科研项目
发表的学术论文
参与的科研项目
致谢
本文编号:3760037
【文章页数】:90 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 引言
1.2 本文研究背景及意义
1.3 蛋白质亚细胞定位的研究现状
1.4 本文的研究内容与创新点
1.5 本文的组织结构
第二章 蛋白质亚细胞定位的特征表达分析与分类技术
2.1 蛋白质氨基酸序列的特征表达方法
2.1.1 基于氨基酸组成(AAC)的特征表达
2.1.2 基于二肽组成(DipC)的特征表达
2.1.3 基于伪氨基酸组成(PseAAC)的特征表达
2.1.4 基于位置特异性得分矩阵(PSSM)的特征表达
2.1.5 基于伪位置特异性得分矩阵(PsePSSM)的特征表达
2.2 蛋白质亚细胞定位的分类算法
2.3 蛋白质亚细胞定位分类模型的检验方法与性能评估指标
2.3.1 分类模型的检验方法
2.3.2 分类模型性能评估指标
第三章 基于核技巧的非线性降维算法
3.1 核技巧的基本思想
3.2 常用的核函数
3.3 核主成分分析(Kernel Principal Component Analysis, KPCA)
3.4 核线性判别分析(Kernel Linear Discriminant Analysis,KLDA)
第四章 基于复合特征表达与核线性判别分析( KLDA)的蛋白质亚细胞定位预测
4.1 引言
4.2 融合特征表达模型
4.3 实验结果及分析
4.3.1 数据集
4.3.2 不同特征表达的总体预测识别率
4.3.3 基于PseAACPSSM与KLDA的蛋白质亚细胞定位预测
4.3.4 基于PseAACPSSM与KLDA的分类性能评估指标分析
4.3.5 对比实验结果分析
4.4 本章小结
第五章 基于复合核函数二重降维算法的蛋白质亚细胞定位预测
5.1 引言
5.2 融合核函数模型
5.3 实验结果及分析
5.3.1 数据集
5.3.2 整体预测识别率
5.3.3 各类别预测识别率
5.3.4 对比实验结果分析
5.4 本章小结
第六章 基于半监督式核主成分分析(KPCA)的蛋白质亚细胞定位预测
6.1 引言
6.2 半监督式KPCA模型
6.3 实验结果及分析
6.3.1 数据集
6.3.2 总体预测识别率
6.3.3 各类别预测识别率
6.3.4 分类性能评估指标分析
6.3.5 对比实验结果分析
6.4 本章小结
第七章 基于二分贪心遗传算法(DGGA)搜索核参数的蛋白质亚细胞定位预测
7.1 引言
7.2 二分贪心遗传算法(DGGA)
7.3 实验结果及分析
7.3.1 数据集
7.3.2 基于DGGA与KLDA整体降维的实验结果分析
7.3.3 基于相关性位置特异性得分矩阵(CoPSSM)与核线性判别分析(KLDA)的蛋白质亚细胞定位预测
7.3.3.1 相关性位置特异性得分矩阵(CoPSSM)
7.3.3.2 CoPSSM的分类性能分析
7.3.3.3 CoPSSM基于结合判别准则的KLDA与DGGA分类性能
7.3.4 对比实验结果分析
7.4 本章小结
第八章 总结与展望
8.1 全文工作总结
8.2 未来工作展望
参考文献
攻读硕士学位期间发表的学术论文与参与的科研项目
发表的学术论文
参与的科研项目
致谢
本文编号:3760037
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3760037.html