离散输入加性模型的构建及其基因组学的应用
发布时间:2023-10-02 04:02
离散型数据包括标称型与计数型数据,是数据科学与人工智能领域中重要的数据类型。离散型数据作为输入构建回归模型,面临着将离散输入值映射到连续输出值上的问题。本研究基于Rademacher复杂度对离散值输入下高斯通用加性模型的误差泛化界进行了推导,在理论上探索了该类模型的估计方法与表现能力。此外,本研究还将高斯通用加性模型应用于全基因组数据中,为选择性育种提供了一种新的解决方案。本文主要阐述了以下三个方面的工作内容:(1)本文在Rademacher复杂度的基础上对离散值输入下高斯通用加性模型的误差泛化界进行了推导。在全基因组选择研究中,由于输入数据为离散值,模型假设空间的复杂度直接影响模型的泛化误差大小。为此本文分别推导了高斯通用加性模型中均值和方差的Rademacher复杂度上界,并以二项分布的输入数据为例得到了在分类和回归问题中较为紧致的误差泛化界。(2)本文阐述了针对小样本数据集高斯通用加性模型的改进及权重求解过程。本文将输出数据分布函数中的均值和方差均参数化以构建高斯通用加性模型,并将分布函数连乘得到损失函数。求得损失函数最小值时均值和方差的权重,并通过添加Bagging集成学习方法...
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.1.1 课题研究意义
1.1.2 全基因组数据的离散特征
1.1.3 模型复杂度研究
1.2 国内外研究现状及分析
1.3 本文主要研究内容及论文结构安排
2 离散型输入的模型估计
2.1 模型估计
2.1.1 预测误差与经验误差
2.1.2 误差的方差偏差分解
2.2 Rademacher复杂度估计
2.3 离散型输入的模型复杂度估计
2.3.1 均值的Rademacher复杂度理论推导
2.3.2 方差的Rademacher复杂度理论推导
2.3.3 仿真实验
2.4 本章小结
3 高斯通用加性模型的构建
3.1 通用加性模型
3.2 高斯通用加性模型
3.3 Bagging集成方法
3.4 高斯通用加性模型的求解
3.5 本章小结
4 全基因组数据集的数据预处理
4.1 数据的采集与培养
4.2 数据的预处理
4.2.1 基因分型
4.2.2 缺失值填补
4.3 生物群体的种群结构分析
4.4 数据特征分析
4.5 本章小结
5 GGAM在全基因组学数据上的应用
5.1 基于关联分析的一次特征降维
5.1.1 假设检验
5.1.2 Matrix eQTL算法
5.2 基于模型复杂度的二次特征降维
5.2.1 AIC信息准则
5.2.2 基于脊回归的前向选择法特征降维
5.3 实验结果分析
5.3.1 均值拟合结果对比
5.3.2 方差拟合结果
5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的学术论文情况
致谢
本文编号:3850058
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.1.1 课题研究意义
1.1.2 全基因组数据的离散特征
1.1.3 模型复杂度研究
1.2 国内外研究现状及分析
1.3 本文主要研究内容及论文结构安排
2 离散型输入的模型估计
2.1 模型估计
2.1.1 预测误差与经验误差
2.1.2 误差的方差偏差分解
2.2 Rademacher复杂度估计
2.3 离散型输入的模型复杂度估计
2.3.1 均值的Rademacher复杂度理论推导
2.3.2 方差的Rademacher复杂度理论推导
2.3.3 仿真实验
2.4 本章小结
3 高斯通用加性模型的构建
3.1 通用加性模型
3.2 高斯通用加性模型
3.3 Bagging集成方法
3.4 高斯通用加性模型的求解
3.5 本章小结
4 全基因组数据集的数据预处理
4.1 数据的采集与培养
4.2 数据的预处理
4.2.1 基因分型
4.2.2 缺失值填补
4.3 生物群体的种群结构分析
4.4 数据特征分析
4.5 本章小结
5 GGAM在全基因组学数据上的应用
5.1 基于关联分析的一次特征降维
5.1.1 假设检验
5.1.2 Matrix eQTL算法
5.2 基于模型复杂度的二次特征降维
5.2.1 AIC信息准则
5.2.2 基于脊回归的前向选择法特征降维
5.3 实验结果分析
5.3.1 均值拟合结果对比
5.3.2 方差拟合结果
5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的学术论文情况
致谢
本文编号:3850058
本文链接:https://www.wllwen.com/projectlw/swxlw/3850058.html