基于逻辑回归的多数据融合鉴别致病基因
发布时间:2021-08-08 18:00
癌症亦称为恶性肿瘤,癌症的发生对人类健康产生了巨大的威胁。随着人类基因组计划的完成,寻找与癌症相关的致病基因成为理解癌症病发机理、癌症预防和诊治手段的基础,具有重大的社会和科学意义。因此,在生物医学领域中,人类致病基因的预测已成为研究热点。已有研究显示,生物网络中趋于邻近的基因易导致同种或相似疾病的发生。有效地利用多种生物网络间所隐含的生物信息,能够提高人类致病基因预测的准确性。与此同时,在鉴别与某种癌症相关致病基因问题中,由于已知基因较未知基因数目相差悬殊,使得致病基因的鉴别问题成为一个典型的不平衡分类问题,传统机器学习方法对于致病基因的鉴别效果并不理想。在此背景下,本论文以多种生物网络数据为基础,针对人类致病基因的鉴别问题进行了研究,取得了如下创新性成果:1.为了将多种生物网络信息进行有效地融合,本研究提出了一种基于逻辑回归的多源数据融合方法。给每个基因分配先验标签的过程中使用了蛋白质复合物数据信息,并通过对二值逻辑回归算法中特征向量的重新构造实现了多种数据源的有效融合,同时充分融入了基因与基因之间的连接信息。该方法提高了致病基因鉴别问题的预测精度,相关实验结果分析对比也进一步表明...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
S型生长曲线
?诹餍胁⊙У攘煊蛑幸丫?晌?钣行У姆治鍪侄巍M?2.2 逻辑回归过程图2.2 不平衡分类问题模式分类问题中,训练样本的数量在类之间分布不平衡的问题,被称为不平衡分类问题。简而言之,就是某些类的样本数量远远多于其它类,即类与类之间样本数量严重失衡。在许多实际模式分类问题中,数据量少的那类即稀有的类常常更为研究者所关注,但是传统的分类方法很难将其正确地进行分类。对于这种不平衡分类问题的解决,传统的机器学习方法所展现的分类性能大幅度降低,通过对样本的学习得到的分类器有很大的偏向性,数据量少的类中的样本易被错分到数据量大的类别中。不平衡分类问题有如下几个特点:(1) 噪声在对分类器的性能进行评价时,由于噪声数据的存在,分类结果在一定程度上会受到它的影响[28]。在不平衡分类问题中,数据量少的类对噪声数据敏感,噪声数据的存在会对其产生更大的影响。如果在数据量少的类的决策阈中存在少量噪声数据,那么会严重影响决策面的学习。这也说明了数据量少的类的抗噪能力弱,而且传统的分类器很难将噪声数据和数据量少的类的样本进行区分[29]。如果为了除去噪声的影响而采取一些防止过学习的相关技术,那么在去除噪声的同时也会将一些数据量少的类中的样本一并去除。但是,如果不除去噪声,分类的性能难以提高。(2) 数据稀缺数据稀缺在很大一部分是由于样本分布的不平衡性所导致的。其中,稀缺主要分为相对稀缺以及绝对稀缺。相对稀缺指的是“数据量少的类”中样本相对于“数据量多的类”中样本所占比例过小,而“数据量少的类”中样本的数量并不?
第二章 相关理论rea Under ROC Curve)是一个值,该值为 ROC 曲线下方对模型的性能进行评价。假如一个模型的分类性能优于另 ROC 曲线下放的面积则更大,其对应的 AUC 值更大。它有更好的分类性能,模型越可靠且完美。当随机预测ROC 和 AUC 具有一个优点,即它们适合类分布改变不不足之处是只适合用于二值分类问题中。应用中,通常性能进行评估。
【参考文献】:
期刊论文
[1]Gambogic Acid Induces Cell Apoptosis and Inhibits MAPK Pathway in PTEN-/-/p53-/- Prostate Cancer Cells In Vitro and Ex Vivo[J]. PAN Hong,LU Li-yuan,WANG Xue-qian,LI Bin-xue,Kathleen Kelly,LIN Hong-sheng. Chinese Journal of Integrative Medicine. 2018(02)
[2]Wnt/β-catenin的表达与肿瘤关系研究进展[J]. 李国栋,姚碧辉,金文海,梁鲁. 世界最新医学信息文摘. 2018(07)
[3]Assimilating Doppler radar observations with an ensemble Kalman filter for convection-permitting prediction of convective development in a heavy rainfall event during the pre-summer rainy season of South China[J]. BAO XingHua,LUO YaLi,SUN JiaXiang,MENG ZhiYong,YUE Jian. Science China(Earth Sciences). 2017(10)
[4]Landslide susceptibility mapping using an integrated model of information value method and logistic regression in the Bailongjiang watershed, Gansu Province, China[J]. DU Guo-liang,ZHANG Yong-shuang,IQBAL Javed,YANG Zhi-hua,YAO Xin. Journal of Mountain Science. 2017(02)
[5]前列腺癌发生发展相关信号转导通路的研究进展[J]. 申利贤,周斌,李海艳,闵可,蒋敏媚,郭玉. 肿瘤药学. 2016(02)
[6]Study on Diagnosis Criteria of Fire-Heat Syndrome Based on Receiver Operating Characteristic Curve and Principal Component Analysis[J]. 刘四军,黄兆胜,吴庆光,黄张杰,吴丽蓉,闫文丽,王奇,王宗伟,张伦博,杨政. Chinese Journal of Integrative Medicine. 2016(04)
[7]Toll样受体在肺癌中的研究进展[J]. 康宝丽,陆英,徐增光. 同济大学学报(医学版). 2015(03)
[8]乳腺原发癌和相应淋巴结转移癌干细胞Wnt、Notch信号通路相关分子的比较[J]. 曾令瑞,韩玉贞,马英路,李文星. 临床与实验病理学杂志. 2014(09)
[9]Notch信号通路在乳腺癌干细胞中的研究进展[J]. 郭瑢,张瑾. 中国肿瘤临床. 2014(14)
[10]Notch信号通路与乳腺癌的研究进展[J]. 李芳华,张新民. 海南医学院学报. 2011(02)
硕士论文
[1]基于AUC的分类器性能评估问题研究[D]. 蒋帅.吉林大学 2016
[2]基于AP聚类的蒸馏算法筛选乳腺癌致病基因[D]. 刘志敏.西安电子科技大学 2014
本文编号:3330419
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
S型生长曲线
?诹餍胁⊙У攘煊蛑幸丫?晌?钣行У姆治鍪侄巍M?2.2 逻辑回归过程图2.2 不平衡分类问题模式分类问题中,训练样本的数量在类之间分布不平衡的问题,被称为不平衡分类问题。简而言之,就是某些类的样本数量远远多于其它类,即类与类之间样本数量严重失衡。在许多实际模式分类问题中,数据量少的那类即稀有的类常常更为研究者所关注,但是传统的分类方法很难将其正确地进行分类。对于这种不平衡分类问题的解决,传统的机器学习方法所展现的分类性能大幅度降低,通过对样本的学习得到的分类器有很大的偏向性,数据量少的类中的样本易被错分到数据量大的类别中。不平衡分类问题有如下几个特点:(1) 噪声在对分类器的性能进行评价时,由于噪声数据的存在,分类结果在一定程度上会受到它的影响[28]。在不平衡分类问题中,数据量少的类对噪声数据敏感,噪声数据的存在会对其产生更大的影响。如果在数据量少的类的决策阈中存在少量噪声数据,那么会严重影响决策面的学习。这也说明了数据量少的类的抗噪能力弱,而且传统的分类器很难将噪声数据和数据量少的类的样本进行区分[29]。如果为了除去噪声的影响而采取一些防止过学习的相关技术,那么在去除噪声的同时也会将一些数据量少的类中的样本一并去除。但是,如果不除去噪声,分类的性能难以提高。(2) 数据稀缺数据稀缺在很大一部分是由于样本分布的不平衡性所导致的。其中,稀缺主要分为相对稀缺以及绝对稀缺。相对稀缺指的是“数据量少的类”中样本相对于“数据量多的类”中样本所占比例过小,而“数据量少的类”中样本的数量并不?
第二章 相关理论rea Under ROC Curve)是一个值,该值为 ROC 曲线下方对模型的性能进行评价。假如一个模型的分类性能优于另 ROC 曲线下放的面积则更大,其对应的 AUC 值更大。它有更好的分类性能,模型越可靠且完美。当随机预测ROC 和 AUC 具有一个优点,即它们适合类分布改变不不足之处是只适合用于二值分类问题中。应用中,通常性能进行评估。
【参考文献】:
期刊论文
[1]Gambogic Acid Induces Cell Apoptosis and Inhibits MAPK Pathway in PTEN-/-/p53-/- Prostate Cancer Cells In Vitro and Ex Vivo[J]. PAN Hong,LU Li-yuan,WANG Xue-qian,LI Bin-xue,Kathleen Kelly,LIN Hong-sheng. Chinese Journal of Integrative Medicine. 2018(02)
[2]Wnt/β-catenin的表达与肿瘤关系研究进展[J]. 李国栋,姚碧辉,金文海,梁鲁. 世界最新医学信息文摘. 2018(07)
[3]Assimilating Doppler radar observations with an ensemble Kalman filter for convection-permitting prediction of convective development in a heavy rainfall event during the pre-summer rainy season of South China[J]. BAO XingHua,LUO YaLi,SUN JiaXiang,MENG ZhiYong,YUE Jian. Science China(Earth Sciences). 2017(10)
[4]Landslide susceptibility mapping using an integrated model of information value method and logistic regression in the Bailongjiang watershed, Gansu Province, China[J]. DU Guo-liang,ZHANG Yong-shuang,IQBAL Javed,YANG Zhi-hua,YAO Xin. Journal of Mountain Science. 2017(02)
[5]前列腺癌发生发展相关信号转导通路的研究进展[J]. 申利贤,周斌,李海艳,闵可,蒋敏媚,郭玉. 肿瘤药学. 2016(02)
[6]Study on Diagnosis Criteria of Fire-Heat Syndrome Based on Receiver Operating Characteristic Curve and Principal Component Analysis[J]. 刘四军,黄兆胜,吴庆光,黄张杰,吴丽蓉,闫文丽,王奇,王宗伟,张伦博,杨政. Chinese Journal of Integrative Medicine. 2016(04)
[7]Toll样受体在肺癌中的研究进展[J]. 康宝丽,陆英,徐增光. 同济大学学报(医学版). 2015(03)
[8]乳腺原发癌和相应淋巴结转移癌干细胞Wnt、Notch信号通路相关分子的比较[J]. 曾令瑞,韩玉贞,马英路,李文星. 临床与实验病理学杂志. 2014(09)
[9]Notch信号通路在乳腺癌干细胞中的研究进展[J]. 郭瑢,张瑾. 中国肿瘤临床. 2014(14)
[10]Notch信号通路与乳腺癌的研究进展[J]. 李芳华,张新民. 海南医学院学报. 2011(02)
硕士论文
[1]基于AUC的分类器性能评估问题研究[D]. 蒋帅.吉林大学 2016
[2]基于AP聚类的蒸馏算法筛选乳腺癌致病基因[D]. 刘志敏.西安电子科技大学 2014
本文编号:3330419
本文链接:https://www.wllwen.com/shekelunwen/ljx/3330419.html