基于生存结局的多组学预测模型统计学方法研究与应用
发布时间:2021-10-22 08:46
在大数据时代,随着分子生物学的发展,对于复杂疾病的研究已经发展至多种组学时代。组学数据是一种生物医学大数据,其具备高维度,小样本的特点(p>n),对传统的统计学方法提出了新的挑战。复杂疾病一般被认为是外在环境因素与内在遗传特征交互作用所导致的,而遗传学特征根据中心法则由上而下包括了多种微观组学数据,如基因变异,DNA甲基化,基因表达,miRNA表达,蛋白质表达等各个层面。全面认识不同组学层面的信息对认识疾病的发生发展至关重要。在医学临床研究中,组学数据与患者的疾病进展乃至疾病结局都有着紧密的联系。因此,组学数据亦常常被作为生物学标志物来预测患者的结局优劣。然而,仅仅利用单个变量(位点,基因等)来进行预测往往效果不如整合多个变量乃至多个组学的数据。本文针对肿瘤患者的预后结局,围绕常见组学数据,就无监督和有监督两部分预测模型构建方法进行研究。每一个部分又分为模拟实验和实例分析。第Ⅰ部分是基于无监督类别组学预后预测模型的算法提出并与常见方法比较。我们提出一种无监督类别多组学整合预测模型的算法Random partition fusion based on K-means(RPFKM),...
【文章来源】:南京医科大学江苏省
【文章页数】:113 页
【学位级别】:博士
【文章目录】:
缩略词表
中文摘要
Abstract
前言
第Ⅰ部分 基于无监督类别组学预后预测模型
1.1 研究目的
1.2 方法简介
1.3 其他方法简介
1.3.1 K-means
1.3.2 系统聚类
1.3.3 基于高斯混合模型的EM算法聚类
1.3.4 iCluster
1.3.5 Similarity network fusion(SNF)
1.4 模拟实验
1.4.1 模拟实验目的
1.4.2 实验设计
1.4.3 评价指标
1.4.4 参数设置和模拟过程
1.4.5 软件实现
1.4.6 模拟实验结果
1.5 实例分析
1.5.1 研究背景
1.5.2 材料与方法
1.5.3 研究结果
1.6 讨论
第Ⅱ部分 基于有监督类别组学预后预测模型
2.1 研究目的
2.2 方法简介
2.2.1 单变量筛选(Univariable)
2.2.2 LASSO、ENET
2.2.3 确定独立筛选SIS
2.2.4 随机森林(random forest)
2.2.5 CoxBoost
2.3 模拟实验
2.3.1 模拟实验目的
2.3.2 实验设计
2.3.3 评价指标
2.3.4 参数设置和模拟过程
2.3.5 软件实现
2.3.6 模拟实验结果
2.4 实例分析
2.4.1 研究背景
2.4.2 材料与方法
2.4.3 研究结果
2.4.4 讨论
2.5 讨论
研究总结
(1)研究内容
(2)研究创新之处
(3)研究不足之处
(4)研究展望
文献综述
参考文献
研究生期间发表论文情况
致谢
【参考文献】:
期刊论文
[1]预防医学发展的国家战略需求及其关键前沿基础科学问题[J]. 秦立强,顾爱华,余灿清,戴宇飞,张作文. 中华疾病控制杂志. 2018(01)
[2]多组学联合缺失数据填补方法的评价[J]. 董学思,林丽娟,赵杨,魏永越,戴俊程,陈峰. 中国卫生统计. 2017(04)
[3]三种块缺失数据处理方法的比较[J]. 林丽娟,董学思,赵杨,魏永越,戴俊程,陈峰. 中国卫生统计. 2017(03)
[4]疾病预后研究的中介分析方法评价[J]. 施倩雯,魏永越,李清雅,段巍巍,赵杨,陈峰. 中国卫生统计. 2017(03)
[5]基于大数据对宫颈癌缺氧生物标志物的分析[J]. 陈谦,仇小强. 中华疾病控制杂志. 2017(05)
[6]孟德尔随机化法在因果推断中的应用[J]. 王莉娜,Zhang Zuofeng. 中华流行病学杂志. 2017 (04)
[7]大数据思维与传统统计思维差异的思考[J]. 陈超,沈思鹏,赵杨,陈峰,魏永越. 南京医科大学学报(社会科学版). 2016(06)
[8]随机森林方法研究综述[J]. 方匡南,吴见彬,朱建平,谢邦昌. 统计与信息论坛. 2011(03)
[9]集成学习:Boosting算法综述[J]. 于玲,吴铁军. 模式识别与人工智能. 2004(01)
博士论文
[1]惩罚回归方法的研究及其在后全基因关联研究中的应用[D]. 勾建伟.南京医科大学 2014
本文编号:3450758
【文章来源】:南京医科大学江苏省
【文章页数】:113 页
【学位级别】:博士
【文章目录】:
缩略词表
中文摘要
Abstract
前言
第Ⅰ部分 基于无监督类别组学预后预测模型
1.1 研究目的
1.2 方法简介
1.3 其他方法简介
1.3.1 K-means
1.3.2 系统聚类
1.3.3 基于高斯混合模型的EM算法聚类
1.3.4 iCluster
1.3.5 Similarity network fusion(SNF)
1.4 模拟实验
1.4.1 模拟实验目的
1.4.2 实验设计
1.4.3 评价指标
1.4.4 参数设置和模拟过程
1.4.5 软件实现
1.4.6 模拟实验结果
1.5 实例分析
1.5.1 研究背景
1.5.2 材料与方法
1.5.3 研究结果
1.6 讨论
第Ⅱ部分 基于有监督类别组学预后预测模型
2.1 研究目的
2.2 方法简介
2.2.1 单变量筛选(Univariable)
2.2.2 LASSO、ENET
2.2.3 确定独立筛选SIS
2.2.4 随机森林(random forest)
2.2.5 CoxBoost
2.3 模拟实验
2.3.1 模拟实验目的
2.3.2 实验设计
2.3.3 评价指标
2.3.4 参数设置和模拟过程
2.3.5 软件实现
2.3.6 模拟实验结果
2.4 实例分析
2.4.1 研究背景
2.4.2 材料与方法
2.4.3 研究结果
2.4.4 讨论
2.5 讨论
研究总结
(1)研究内容
(2)研究创新之处
(3)研究不足之处
(4)研究展望
文献综述
参考文献
研究生期间发表论文情况
致谢
【参考文献】:
期刊论文
[1]预防医学发展的国家战略需求及其关键前沿基础科学问题[J]. 秦立强,顾爱华,余灿清,戴宇飞,张作文. 中华疾病控制杂志. 2018(01)
[2]多组学联合缺失数据填补方法的评价[J]. 董学思,林丽娟,赵杨,魏永越,戴俊程,陈峰. 中国卫生统计. 2017(04)
[3]三种块缺失数据处理方法的比较[J]. 林丽娟,董学思,赵杨,魏永越,戴俊程,陈峰. 中国卫生统计. 2017(03)
[4]疾病预后研究的中介分析方法评价[J]. 施倩雯,魏永越,李清雅,段巍巍,赵杨,陈峰. 中国卫生统计. 2017(03)
[5]基于大数据对宫颈癌缺氧生物标志物的分析[J]. 陈谦,仇小强. 中华疾病控制杂志. 2017(05)
[6]孟德尔随机化法在因果推断中的应用[J]. 王莉娜,Zhang Zuofeng. 中华流行病学杂志. 2017 (04)
[7]大数据思维与传统统计思维差异的思考[J]. 陈超,沈思鹏,赵杨,陈峰,魏永越. 南京医科大学学报(社会科学版). 2016(06)
[8]随机森林方法研究综述[J]. 方匡南,吴见彬,朱建平,谢邦昌. 统计与信息论坛. 2011(03)
[9]集成学习:Boosting算法综述[J]. 于玲,吴铁军. 模式识别与人工智能. 2004(01)
博士论文
[1]惩罚回归方法的研究及其在后全基因关联研究中的应用[D]. 勾建伟.南京医科大学 2014
本文编号:3450758
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3450758.html