当前位置:主页 > 科技论文 > 基因论文 >

基于先验信息和二进制粒子群优化的基因表达谱数据处理的研究与实现

发布时间:2021-06-06 17:21
  基因表达谱数据具有特征维数高、样本数量少的特性,传统的机器学习方法在基因表达谱数据的处理上仍然有较大的提升空间。近年来基于群智能优化和极限学习机的方法在基因表达谱数据的特征选择和样本分类上取得了良好的性能。然而,由于缺乏数据中先验信息的约束,基于群智能优化和极限学习机的方法在特征选择过程中容易丢失关键的基因,进而影响对肿瘤的识别准确性,并且处理方法缺乏可解释性。为了提高基因表达谱数据处理性能和处理方法的可解释性,本文在获取基因表达谱数据组合先验信息的基础上,运用编码先验信息的粒子群优化算法实现基因表达谱数据的特征选择,并应用集成极限学习机实现肿瘤预测,最后设计并实现了基因表达谱数据处理原型系统。本文的主要工作如下:1.为了提高基因表达谱数据的处理性能和处理方法的可解释性,提出了基于改良先验信息和二进制粒子群相结合的基因选择处理方法。该方法首先运用聚类,从具备不同功能的各基因簇中筛选代表性基因建立初始备选基因池。其次,将类别先验信息和皮尔森系数结合,获取基因表达谱数据中的组合先验信息;再次,将改良的组合先验信息编码进二进制粒子群优化算法中,选出与肿瘤类别高度相关的基因子集。最后,以多样性... 

【文章来源】:江苏大学江苏省

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

基于先验信息和二进制粒子群优化的基因表达谱数据处理的研究与实现


基因表达谱数据提取示意图

前馈神经网络,结构示意图,反向传播算法,学习机


江 苏 大 学 硕 士 学 位 论 文第二章 极限学习机随着机器学习在各个行业中的广泛应用,神经网络也更加不错的效果。针对比较复杂的模式识别以及函数拟合问题的作用。然而传统前馈神经网络常采用反向传播算法求解 所示。虽然,Funahashi 通过实验证明了应用反向传播算法意连续函数的强大能力。但这一方法往往需要数千次的迭

示意图,算法结构,示意图


投??屏W尤河呕?幕?虮泶锲资?荽?淼难芯坑胧迪?20图4.1 算法结构示意图在初选阶段的基因池构建过程中,为了避免重复选择表达性能出现重复的类似基因,利用K-Means方法对特征进行聚类[38]。不同的数据样本可以遵循基因特征说明文件中的类别寻找合适的类别数目[39]。并借助分类先验信息 ( )大小在每个类别上排序。在获取到各个类别的分类情况后,如果在某一类别上的所有特征基因表现远劣于其他类中的分类先验信息的值,一般取劣于所有类别的GCS平均值作为删除分界线。将劣于这一标准的所有特征进行剔除后,根据每个类别的平均表现水平选取合适数量的基因特征。一般选取排名靠前的200个特征基因作为候选特征,成为改良二进制粒子群中的初试基因特征池。随着建立好优秀的基因初选池后,受传统二进制粒子群位置更新公式的启发,为了增强每次更新中对于优秀特征的侧重和方向性,同时加强了所选择基因的解释性,本文针对公式(3-4)进行了更新: ( ) ( ) ( ) ( ) ≤ () ∑ ( ) ( ) ( ) () ∑ ( ) (4-11)其中

【参考文献】:
期刊论文
[1]基于输出不一致测度的极限学习机集成的基因表达数据分类[J]. 陆慧娟,安春霖,马小平,郑恩辉,杨小兵.  计算机学报. 2013(02)
[2]基于PSO的k-means算法及其在网络入侵检测中的应用[J]. 傅涛,孙亚民.  计算机科学. 2011(05)
[3]基因表达谱芯片的数据分析[J]. 吴斌,沈自尹.  世界华人消化杂志. 2006(01)
[4]基于支持向量机的肿瘤分类特征基因选取[J]. 李颖新,阮晓钢.  计算机研究与发展. 2005(10)
[5]基于粒子群的K均值聚类算法[J]. 刘靖明,韩丽川,侯立文.  系统工程理论与实践. 2005(06)
[6]基于聚类算法的选择性神经网络集成[J]. 李国正,杨杰,孔安生,陈念贻.  复旦学报(自然科学版). 2004(05)



本文编号:3214818

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3214818.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2e34e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com