当前位置:主页 > 医学论文 > 肿瘤论文 >

基于遗传算法和加权极限学习机结合的乳腺癌亚型分类和基因选择

发布时间:2018-07-18 10:46
【摘要】:有各种各样的方法去解决关于乳腺癌亚型的基因选择问题。而本文使用的是一种包装法的形式,即在可能选择的特征基因集合空间里寻找出与乳腺癌亚型分类最息息相关的基因集合。这里遇到了两个问题:一、如何评价一个基因集合的好坏。二、以什么样的方式寻找到最好的那个基因集合。对于第一个问题,本文的解决方法是用基因集合中的基因数据训练模型,如果该模型对于乳腺癌亚型分类的预测精度高则表明该模型使用的数据好,也即表明该基因集合更优秀。本文选择的模型是极限学习机,原因在于它是一个新兴的神经网络模型算法,同时它具有简单和极度快速的特点,非常适合大范围、反复的训练。对于第二个问题,其实有许多搜索寻优方法供我们使用,比如随机搜索、穷举以及蚁群算法等。本文使用的是遗传算法。其不错的健壮性和相对简单的操作性是我们选择遗传算法的主要原因。通过遗传算法和极限学习机的结合,我们筛选出了一个包含50个基因的集合,它对于乳腺癌亚型的分类有着最重要的相关性。本文同时也使用了其他特征选择的方法——过滤法。通过对基因集合冗余性的分析,使用SAM方法和基于相似性度量的贪婪算法过滤掉大量冗余基因,减小了搜索空间,免去了许多无用基因对于算法的干扰。我们将这一过程称之为基因预筛选。在这之后,本文针对于问题和数据,给出了适应于求解本文涉及问题的遗传操作和各种参数设置。在问题的研究中,我们遇到了基因数据的不平衡问题,通过分析和研究,我们使用了基于加权的极限学习机,通过代价敏感的方式解决了此类问题。最后我们给出了我们的方法的结果与其他方法的比较。我们首先对比了不同的机器学习算法在我们的最优基因集合上的预测性能,说明了我们筛选出的基因集合是健壮的,其对不同的学习算法都有着超过95%几何平均准确度的预测性能。然后我们对比了以我们的方法筛选出的基因集合与其他方法所得基因集合的预测性能。我们的方法以96.53%的几何平均预测准确率优于其他任何方法,证明了我们的方法是值得研究和扩展的。
[Abstract]:There are various ways to solve the problem of gene selection for breast cancer subtypes. In this paper, a packaging method is used to find the gene sets most closely related to the classification of breast cancer subtypes in the potential selection of characteristic gene set space. There are two problems: first, how to evaluate a gene set good or bad. Second, in what way to find the best set of genes. For the first problem, the solution of this paper is to use the gene data training model in the gene set. If the prediction accuracy of the model for breast cancer subtype classification is high, the data used by the model are good. This means that the gene set is better. The model chosen in this paper is the ultimate learning machine, because it is a new neural network model algorithm, and it has the characteristics of simplicity and extreme speed, which is very suitable for extensive and repeated training. For the second problem, there are many search optimization methods for us to use, such as random search, exhaustive, ant colony algorithm and so on. Genetic algorithm is used in this paper. Its good robustness and relatively simple maneuverability are the main reasons why we choose genetic algorithm. Through the combination of genetic algorithm and extreme learning machine, we have selected a set of 50 genes, which has the most important correlation to the classification of breast cancer subtype. At the same time, we also use other feature selection method-filter method. By analyzing the redundancy of gene set, SAM method and greedy algorithm based on similarity measure are used to filter out a large number of redundant genes, which reduces the search space and avoids the interference of many useless genes to the algorithm. We call this process genetic pre-screening. After that, for the problem and data, the genetic operation and various parameter settings for solving the problem in this paper are given. In the study of the problem, we encounter the imbalance of genetic data. Through analysis and research, we use a weighted extreme learning machine, and solve this problem in a cost-sensitive way. Finally, the results of our method are compared with other methods. First, we compare the prediction performance of different machine learning algorithms on our optimal gene set, which shows that our selected gene set is robust. It has more than 95% geometric average accuracy prediction performance for different learning algorithms. Then we compared the predictive performance of the gene sets screened by our method with those obtained by other methods. The prediction accuracy of our method is 96.53%, which is better than that of any other method. It is proved that our method is worth studying and extending.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R737.9;TP18

【相似文献】

相关期刊论文 前10条

1 刘雅琴,王成,章鲁;基于多代竞争遗传算法的数值函数优化[J];上海第二医科大学学报;2005年08期

2 江金龙;朱亚军;薛云灿;;基于变区域搜索的改进遗传算法研究[J];九江学院学报(自然科学版);2006年03期

3 林中营;虞科;程翼宇;沈朋;;遗传算法优化尿样核苷毛细管电泳分析条件[J];药物分析杂志;2007年03期

4 曹明勇;陈超敏;周凌宏;童蕾;;双种群遗传算法优化射野方向及权重的研究[J];医疗卫生装备;2008年10期

5 蒋兴波;许开云;吴耀民;;卫勤最短回路问题的遗传算法求解[J];解放军医院管理杂志;2010年03期

6 周琴;孔玉;;基于遗传算法的医用溶液测定[J];医疗卫生装备;2011年04期

7 刘继清;;遗传算法在装备供应优化问题中的应用[J];江汉大学学报(自然科学版);2011年04期

8 乔树清;;改进后的遗传算法在排课系统中的应用研究[J];齐齐哈尔医学院学报;2007年16期

9 邢大地;吴效明;;基于改进的遗传算法求解脑电逆问题[J];中国组织工程研究与临床康复;2009年17期

10 杜海舰;伍瑞昌;王运斗;;基于遗传算法的带有软时间窗的卫生车辆调度优化研究[J];数理医药学杂志;2011年05期

相关会议论文 前10条

1 陈家照;廖海涛;张中位;罗寅生;;一种改进的遗传算法及其在路径规划中的应用[A];2009系统仿真技术及其应用学术会议论文集[C];2009年

2 李国云;刘颖;薛梅;邬志敏;;遗传算法在高温空冷冷凝器优化设计中的应用[A];第五届全国制冷空调新技术研讨会论文集[C];2008年

3 王志军;李守春;张爽;;改进的遗传算法在反演问题中的应用[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年

4 任燕翔;姜立;刘连民;从滋庆;;改进遗传算法在三维日照方案优化中的应用[A];工程三维模型与虚拟现实表现——第二届工程建设计算机应用创新论坛论文集[C];2009年

5 韩娟;;遗传算法概述[A];第三届河南省汽车工程科技学术研讨会论文集[C];2006年

6 庞国仲;王元西;;基于遗传算法控制步长的定性仿真方法[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年

7 张忠华;杨淑莹;;基于遗传算法的聚类设计[A];全国第二届信号处理与应用学术会议专刊[C];2008年

8 何翠红;区益善;;遗传算法及其在计算机编程中的应用[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(下册)[C];1995年

9 靳开岩;张乃尧;;几种实用遗传算法及其比较[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年

10 王宏刚;曾建潮;李志宏;;摄动遗传算法[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年

相关重要报纸文章 前1条

1 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年

相关博士学位论文 前10条

1 Amjad Mahmood;半监督进化集成及其在网络视频分类中的应用[D];西南交通大学;2015年

2 李险峰;基于改进遗传算法的汽车装配生产线平衡问题研究[D];北京科技大学;2017年

3 周辉仁;递阶遗传算法理论及其应用研究[D];天津大学;2008年

4 郝国生;交互式遗传算法中用户的认知规律及其应用[D];中国矿业大学;2009年

5 侯格贤;遗传算法及其在跟踪系统中的应用研究[D];西安电子科技大学;1998年

6 马国田;遗传算法及其在电磁工程中的应用[D];西安电子科技大学;1998年

7 唐文艳;结构优化中的遗传算法研究和应用[D];大连理工大学;2002年

8 周激流;遗传算法理论及其在水问题中应用的研究[D];四川大学;2000年

9 刘冀成;基于改进遗传算法的生物电磁成像与磁场聚焦应用研究[D];四川大学;2005年

10 袁丽华;基于物种进化的遗传算法研究[D];南京航空航天大学;2009年

相关硕士学位论文 前10条

1 张英俐;基于遗传算法的作曲系统研究[D];山东师范大学;2006年

2 钟海萍;原对偶遗传算法与蚁群算法的一种融合算法[D];暨南大学;2013年

3 李志添;模糊遗传算法与资源优化配置的预测控制[D];华南理工大学;2015年

4 王琳琳;新型双层液压轿运车车厢的设计研究[D];上海工程技术大学;2015年

5 李海全;基于遗传算法的建筑体形系数及迎风面积比优化方法研究[D];华南理工大学;2015年

6 彭骞;基于遗传算法的山区高等级公路纵断面智能优化方法研究[D];昆明理工大学;2015年

7 周玉林;基于小波分析和遗传算法的配电网故障检测[D];昆明理工大学;2015年

8 郭颂;基于粗糙集和遗传算法的数字管道生产管理系统研究[D];昆明理工大学;2015年

9 吴南;数值逼近遗传算法的研究应用[D];华南理工大学;2015年

10 于光帅;一类优化算法的改进研究与应用[D];渤海大学;2015年



本文编号:2131664

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/2131664.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户86f02***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com