基于生成对抗网络与群智能优化的基因选择方法研究
发布时间:2021-12-30 14:55
癌症已经成为威胁人类生命健康的主要疾病之一,高效的基因选择方法可以有效识别和分析基因表达谱中的致病基因,为癌症的预防和治疗提供重要的参考。基因表达谱具有高维度、小样本的特点,一般的基因选择方法在一定程度上可以缓解维度过高带来的压力,但样本数量的匮乏仍然导致大部分的基因选择方法效果不佳,目前的研究方法主要集中于降维算法的改进,对于样本量方面的研究缺乏关注。针对上述问题,本文利用基于生成对抗网络(GAN)与群智能算法(SI)结合的方法进行基因选择,该方法通过生成样本提高基因表达谱数据集的样本量,并通过群智能算法优秀的搜索性能获取更优的基因子集,为基因表达谱数据的研究工作提供了一种新的思路。本文的主要工作如下:(1)针对传统基因选择方法的缺陷,本文提出基于条件约束的生成对抗网络与二进制粒子群优化(BPSO)的基因选择方法(y-CGAN-BPSO-ELM)。该方法针对基因表达谱数据的特点,首先利用CGAN模型进行样本生成,同时在判别器模型中加入对条件变量y的约束项,提高生成样本的真实性与多样性,最后对样本增加后的数据集以BPSO算法进行基因选择,以超限学习机(ELM)的分类结果指导选择过程。在...
【文章来源】:江苏大学江苏省
【文章页数】:94 页
【学位级别】:硕士
【部分图文】:
VAE-Binaryclassifier生成模型
江苏大学硕士学位论文15生成对抗网络的结构即基于图2.1的生成模型。GAN的网络结构包含两个部分:(1)生成器G(Generator);(2)判别器D(Discriminator)。其工作过程基于博弈论中的零和博弈,如图2.2所示,生成器G与判别器D的之间的对抗博弈会迫使生成器生成更加真实的人造样本,生成器G根据输入的向量生成样本,判别器的输入值为训练集中的真实样本与G生成的伪样本,计算得出网络的输入值为真实样本的概率。在生成器G与判别器D相互对抗与进化的过程中,GAN完美地解决了以下这一问题:如何根据已知存在的一定量的样本,训练出一个能够生成近乎完全相同的样本数据的神经网络模型,这使得GAN在小样本数据分析领域,如人脸识别、图像生成、医学数据生成等方向上的应用发展迅速。图2.2GAN的工作原理GAN的基本原理在于根据已知样本分布为xPdata求基于未知参数θ的分布xP;G的极大似然估计。假设从真实分布xPdata中选择M个样本,其同样存在于生成分布xP;G中的概率即为似然函数L:miiGLxP1);((2.1)当存在θ使似然函数最大时,真实样本在生成分布中存在的最多,即代表GP越接近于dataP。对以θ为参数的似然函数(2.1)进行推导可知公式(2.2)。
基于生成对抗网络与群智能优化的基因选择方法研究28但是可能与研究目标无关。基因表达谱数据的研究具有高度的专一性,即对同一亚型的肿瘤基因进行特征选择,因此,高度自由的样本生成方式并不适合此类数据集的研究工作。CGAN在无监督学习的基础上,对生成样本添加标签,使生成样本的分布近似于真实分布,同时针对某一亚型的肿瘤的表达进行特定的基因生成。CGAN与一般的监督学习方法不同,传统的监督学习加入标签以后,其生成样本仍然没有一个判定的依据,自由度依然很高,例如定义基因表达谱中的Brain(脑癌)最高相关性为1,当条件变量y1加入模型中,则生成的足够真实的样本数据中一定会带有脑癌相关基因,但这个基因可能与人类的脑癌有关,也可能与其他物种的脑癌有关,同时可能包含有多个脑癌的基因同时存在于同一样本之中,对于基因选择而言,这样的样本反而无助于提高其分类精度。CGAN的解决方法即在于将条件变量和生成样本同时放入判别器D中进行判断,其工作原理如图3.1所述。图3.1CGAN工作原理CGAN算法的具体流程如算法3.1所示。算法3.1CGAN博弈进化算法输入:真实样本数据集dataP,初始随机分布zP,条件变量iy;生成器G参数θg,判别器D参数θd,最大迭代次数Iter,当前迭代次数t。
【参考文献】:
期刊论文
[1]基于混合群智能算法优化BP神经网络的粮食产量预测[J]. 庄星,韩飞. 江苏大学学报(自然科学版). 2019(02)
[2]高维小样本分类问题中特征选择研究综述[J]. 王翔,胡学钢. 计算机应用. 2017(09)
[3]Cancer statistics: updated cancer burden in China[J]. Wanqing Chen. Chinese Journal of Cancer Research. 2015(01)
[4]群智能算法的理论及应用综述[J]. 王水花,张煜东,吉根林. 南京师范大学学报(工程技术版). 2014(04)
[5]人工蜂群算法研究综述[J]. 秦全德,程适,李丽,史玉回. 智能系统学报. 2014(02)
[6]基于虚拟样本扩张法的单样本人脸识别算法研究[J]. 单桂军. 科学技术与工程. 2013(14)
[7]一种面向高维数据的均分式Lasso特征选择方法[J]. 施万锋,胡学钢,俞奎. 计算机工程与应用. 2012(01)
[8]惯性权重粒子群算法模型收敛性分析及参数选择[J]. 孙湘,周大为,张希望. 计算机工程与设计. 2010(18)
[9]生物信息学中基因芯片的特征选择技术综述[J]. 周昉,何洁月. 计算机科学. 2007(12)
[10]基因选择的快速Fisher优化模型[J]. 封举富,时建新. 北京大学学报(自然科学版). 2005(01)
硕士论文
[1]深度对抗式数据增强技术在小规模数据集上的应用研究[D]. 张晓峰.中国科学技术大学 2019
[2]基于打分准则和微粒群算法的基因选择方法研究[D]. 唐迪.江苏大学 2017
本文编号:3558429
【文章来源】:江苏大学江苏省
【文章页数】:94 页
【学位级别】:硕士
【部分图文】:
VAE-Binaryclassifier生成模型
江苏大学硕士学位论文15生成对抗网络的结构即基于图2.1的生成模型。GAN的网络结构包含两个部分:(1)生成器G(Generator);(2)判别器D(Discriminator)。其工作过程基于博弈论中的零和博弈,如图2.2所示,生成器G与判别器D的之间的对抗博弈会迫使生成器生成更加真实的人造样本,生成器G根据输入的向量生成样本,判别器的输入值为训练集中的真实样本与G生成的伪样本,计算得出网络的输入值为真实样本的概率。在生成器G与判别器D相互对抗与进化的过程中,GAN完美地解决了以下这一问题:如何根据已知存在的一定量的样本,训练出一个能够生成近乎完全相同的样本数据的神经网络模型,这使得GAN在小样本数据分析领域,如人脸识别、图像生成、医学数据生成等方向上的应用发展迅速。图2.2GAN的工作原理GAN的基本原理在于根据已知样本分布为xPdata求基于未知参数θ的分布xP;G的极大似然估计。假设从真实分布xPdata中选择M个样本,其同样存在于生成分布xP;G中的概率即为似然函数L:miiGLxP1);((2.1)当存在θ使似然函数最大时,真实样本在生成分布中存在的最多,即代表GP越接近于dataP。对以θ为参数的似然函数(2.1)进行推导可知公式(2.2)。
基于生成对抗网络与群智能优化的基因选择方法研究28但是可能与研究目标无关。基因表达谱数据的研究具有高度的专一性,即对同一亚型的肿瘤基因进行特征选择,因此,高度自由的样本生成方式并不适合此类数据集的研究工作。CGAN在无监督学习的基础上,对生成样本添加标签,使生成样本的分布近似于真实分布,同时针对某一亚型的肿瘤的表达进行特定的基因生成。CGAN与一般的监督学习方法不同,传统的监督学习加入标签以后,其生成样本仍然没有一个判定的依据,自由度依然很高,例如定义基因表达谱中的Brain(脑癌)最高相关性为1,当条件变量y1加入模型中,则生成的足够真实的样本数据中一定会带有脑癌相关基因,但这个基因可能与人类的脑癌有关,也可能与其他物种的脑癌有关,同时可能包含有多个脑癌的基因同时存在于同一样本之中,对于基因选择而言,这样的样本反而无助于提高其分类精度。CGAN的解决方法即在于将条件变量和生成样本同时放入判别器D中进行判断,其工作原理如图3.1所述。图3.1CGAN工作原理CGAN算法的具体流程如算法3.1所示。算法3.1CGAN博弈进化算法输入:真实样本数据集dataP,初始随机分布zP,条件变量iy;生成器G参数θg,判别器D参数θd,最大迭代次数Iter,当前迭代次数t。
【参考文献】:
期刊论文
[1]基于混合群智能算法优化BP神经网络的粮食产量预测[J]. 庄星,韩飞. 江苏大学学报(自然科学版). 2019(02)
[2]高维小样本分类问题中特征选择研究综述[J]. 王翔,胡学钢. 计算机应用. 2017(09)
[3]Cancer statistics: updated cancer burden in China[J]. Wanqing Chen. Chinese Journal of Cancer Research. 2015(01)
[4]群智能算法的理论及应用综述[J]. 王水花,张煜东,吉根林. 南京师范大学学报(工程技术版). 2014(04)
[5]人工蜂群算法研究综述[J]. 秦全德,程适,李丽,史玉回. 智能系统学报. 2014(02)
[6]基于虚拟样本扩张法的单样本人脸识别算法研究[J]. 单桂军. 科学技术与工程. 2013(14)
[7]一种面向高维数据的均分式Lasso特征选择方法[J]. 施万锋,胡学钢,俞奎. 计算机工程与应用. 2012(01)
[8]惯性权重粒子群算法模型收敛性分析及参数选择[J]. 孙湘,周大为,张希望. 计算机工程与设计. 2010(18)
[9]生物信息学中基因芯片的特征选择技术综述[J]. 周昉,何洁月. 计算机科学. 2007(12)
[10]基因选择的快速Fisher优化模型[J]. 封举富,时建新. 北京大学学报(自然科学版). 2005(01)
硕士论文
[1]深度对抗式数据增强技术在小规模数据集上的应用研究[D]. 张晓峰.中国科学技术大学 2019
[2]基于打分准则和微粒群算法的基因选择方法研究[D]. 唐迪.江苏大学 2017
本文编号:3558429
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3558429.html