基于基因表达数据的癌症亚型分类研究
发布时间:2022-05-08 12:02
随着机器学习技术的快速发展,生物信息学研究的不断深入,利用基因表达序列中的数据对癌症进行亚型分类研究,已成为当前的研究热点之一。在分子生物学水平上,利用基因表达数据的分析从而对癌症早期诊断提供辅导决策,这对于癌症的正确、及时诊断,有着积极深远的意义。然而,基因表达数据有着其数据特点,即:高维度、小样本、分布不平衡等,这也对癌症亚型的分类提出了挑战。由于在基因表达数据中,存在着大量的冗余基因和噪声数据。因此,面对着海量的基因表达数据,如何对其进行特征选择,选出最具代表性的特征基因子集,是研究学者们的研究重点之一。此外,学者们还致力于寻找有效的分类方法。这两方面的研究,目的都在于提高癌症亚型的分类精度,为大数据医疗提供更精确的决策支持。本文主要基于样本数据的特点,通过学习和研究,设计快速、有效的特征选择方法。通过特征选择后的样本数据,进行样本分类预测研究。在分类阶段,研究极限学习机算法的使用和扩展,目的在于提高分类器的性能效果。本文主要完成了以下的工作:(1)由于基因的维数过高,本文提出了多维互信息(MMI)特征选择方法。多维互信息特征选择方法的算法原理在于筛选出最能表达癌症分类的基因子集...
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
学位论文数据集
摘要
ABSTRACT
第一章 绪论
1.1 课题研究背景及意义
1.2 基因表达数据
1.2.1 基因表达数据的定义和获取
1.2.2 基因表达数据特性
1.3 国内外研究现状
1.4 论文的主要研究内容、创新点
1.5 章节安排
第二章 理论基础
2.1 极限学习机
2.1.1 人工神经网络简介
2.1.2 极限学习机简介
2.1.3 极限学习机的算法原理
2.1.4 极限学习机的部分特性
2.2 信息论知识基础
2.2.1 信息熵知识基础
2.2.2 联合熵
2.2.3 条件熵
2.2.4 互信息
2.2.5 各种熵之间的关系
2.2.6 条件互信息
2.2.7 联合互信息
2.3 特征选择
2.3.1 特征选择的定义
2.3.2 特征选择过程
2.3.3 特征选择方法
2.3.4 基于评价函数划分的特征选择方法
2.3.4.1 Filter方法
2.3.4.2 Wrapper方法
2.3.4.3 Embedded方法
2.3.4.4 混合方法
2.4 集成学习
2.4.1 集成学习概念
2.4.2 AdaBoost算法
2.5 本章小结
第三章 基于多维互信息的特征选择方法
3.1 引言
3.2 基于基因表达数据的多维互信息(MMI)特征选择方法
3.2.1 基于互信息的基因表达数据特征选择方法
3.2.2 基于基因表达数据的多维互信息(MMI)特征选择方法
3.3 基于MMI-ELM的癌症亚型分类算法
3.3.1 算法分析
3.3.2 多维互信息特征选择算法描述
3.4 实验和结果分析
3.4.1 实验数据集
3.4.2 数据预处理
3.4.3 实验结果分析
3.5 本章小结
第四章 基于AdaBoost-ELM的不平衡数据集分类方法
4.1 引言
4.2 基于AdaBoost-ELM的癌症亚型分类算法
4.2.1 算法设计分析
4.2.2 AdaBoost-ELM分类算法描述
4.3 实验数据集
4.4 实验和结果分析
4.5 本章小结
第五章 总结与展望
5.1 论文内容总结
5.2 工作展望
参考文献
致谢
研究成果及发表的学术论文
作者和导师简介
附录
【参考文献】:
期刊论文
[1]基于输出不一致测度的极限学习机集成的基因表达数据分类[J]. 陆慧娟,安春霖,马小平,郑恩辉,杨小兵. 计算机学报. 2013(02)
[2]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[3]基于最小联合互信息亏损的最优特征选择算法[J]. 张逸石,陈传波. 计算机科学. 2011(12)
[4]特征选择算法综述[J]. 计智伟,胡珉,尹建新. 电子设计工程. 2011(09)
[5]一种快速的Wrapper式特征子集选择新方法[J]. 叶吉祥,龚希龄. 长沙理工大学学报(自然科学版). 2010(04)
[6]一种基于信息增益及遗传算法的特征选择算法[J]. 任江涛,孙婧昊,黄焕宇,印鉴. 计算机科学. 2006(10)
博士论文
[1]基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D]. 刘亚杰.云南大学 2014
本文编号:3651628
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
学位论文数据集
摘要
ABSTRACT
第一章 绪论
1.1 课题研究背景及意义
1.2 基因表达数据
1.2.1 基因表达数据的定义和获取
1.2.2 基因表达数据特性
1.3 国内外研究现状
1.4 论文的主要研究内容、创新点
1.5 章节安排
第二章 理论基础
2.1 极限学习机
2.1.1 人工神经网络简介
2.1.2 极限学习机简介
2.1.3 极限学习机的算法原理
2.1.4 极限学习机的部分特性
2.2 信息论知识基础
2.2.1 信息熵知识基础
2.2.2 联合熵
2.2.3 条件熵
2.2.4 互信息
2.2.5 各种熵之间的关系
2.2.6 条件互信息
2.2.7 联合互信息
2.3 特征选择
2.3.1 特征选择的定义
2.3.2 特征选择过程
2.3.3 特征选择方法
2.3.4 基于评价函数划分的特征选择方法
2.3.4.1 Filter方法
2.3.4.2 Wrapper方法
2.3.4.3 Embedded方法
2.3.4.4 混合方法
2.4 集成学习
2.4.1 集成学习概念
2.4.2 AdaBoost算法
2.5 本章小结
第三章 基于多维互信息的特征选择方法
3.1 引言
3.2 基于基因表达数据的多维互信息(MMI)特征选择方法
3.2.1 基于互信息的基因表达数据特征选择方法
3.2.2 基于基因表达数据的多维互信息(MMI)特征选择方法
3.3 基于MMI-ELM的癌症亚型分类算法
3.3.1 算法分析
3.3.2 多维互信息特征选择算法描述
3.4 实验和结果分析
3.4.1 实验数据集
3.4.2 数据预处理
3.4.3 实验结果分析
3.5 本章小结
第四章 基于AdaBoost-ELM的不平衡数据集分类方法
4.1 引言
4.2 基于AdaBoost-ELM的癌症亚型分类算法
4.2.1 算法设计分析
4.2.2 AdaBoost-ELM分类算法描述
4.3 实验数据集
4.4 实验和结果分析
4.5 本章小结
第五章 总结与展望
5.1 论文内容总结
5.2 工作展望
参考文献
致谢
研究成果及发表的学术论文
作者和导师简介
附录
【参考文献】:
期刊论文
[1]基于输出不一致测度的极限学习机集成的基因表达数据分类[J]. 陆慧娟,安春霖,马小平,郑恩辉,杨小兵. 计算机学报. 2013(02)
[2]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[3]基于最小联合互信息亏损的最优特征选择算法[J]. 张逸石,陈传波. 计算机科学. 2011(12)
[4]特征选择算法综述[J]. 计智伟,胡珉,尹建新. 电子设计工程. 2011(09)
[5]一种快速的Wrapper式特征子集选择新方法[J]. 叶吉祥,龚希龄. 长沙理工大学学报(自然科学版). 2010(04)
[6]一种基于信息增益及遗传算法的特征选择算法[J]. 任江涛,孙婧昊,黄焕宇,印鉴. 计算机科学. 2006(10)
博士论文
[1]基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D]. 刘亚杰.云南大学 2014
本文编号:3651628
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3651628.html
最近更新
教材专著