基于机器学习的疾病相关基因识别研究
发布时间:2020-12-29 03:35
疾病严重威胁着人类的健康和生命,是当今各国政府及医疗技术研发机构所共同面临的挑战。目前,精准医学在我国发展迅速,而挖掘疾病相关基因,探索基因功能,全面了解疾病发病机理是迈向精准医学的必经之路。从人类基因组中识别疾病相关基因不仅对化学、生物学、医学和药学研究十分重要,而且是具有挑战性的一项任务。识别疾病相关基因是揭示疾病分子基础的第一步,有助于提高对基因功能及相互作用和生物相关途径的认知。同时,识别疾病相关基因是了解发病机理和发现治疗靶点的重要步骤之一,能够帮助解决系统医学领域的重要问题,例如:疾病病因学研究,以及新药研发和药物设计等。疾病的症状和蛋白质序列信息是认识疾病与基因之间复杂关系的重要资源。应用机器学习的方法识别疾病相关基因有助于研究人员进一步缩小搜索范围,优化深入验证疾病相关基因的湿实验,加速疾病相关基因的鉴定。本毕业论文主要内容如下:1.围绕课题的研究内容,对基因在疾病发生中的重要性、识别疾病相关基因在生物医学及药学领域的意义、疾病相关基因识别方法的研究现状,以及机器学习技术进行了综述。2.基于深度卷积神经网络,提出了一种新的用于预测潜在的疾病相关基因的方法。首先,分别用蛋...
【文章来源】:广东药科大学广东省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
当前方法流程图
广东药科大学硕士研究生学位论文14图2-2随机抽取负样本测试结果统计。(a)10次实验的统计平均值(面板分别表示从当前方法训练集(红色)和测试集(蓝色)得出的Acc,Spe,Sen,Pre和Mcc的平均值。竖线表示相对标准偏差)。(b)ROC和PRC曲线基于当前方法训练集(红色)和测试集(蓝色)Fig.2-2Thestatisticresultsofrandomnegativesamples.(a)Thestatisticalaverageresultsof10experiments(ThepanelsindicatethemeanvaluesofAcc、Spe、Sen、PreandMccderivedfromthecurrentmethodtrainingset(red)andthetestset(blue),respectively.Theverticalbarsindicatetherelativestandarddeviations).(b)TheROCandPRCcurvesbasedonthecurrentmethodtrainingset(red)andthetestset(blue)训练集的Acc、Sen、Spe、Pre和Mcc的平均值分别为92.29%、91.52%、93.06%、92.95%和0.8459;对于测试集而言,平均值分别为80.63%、80.12%、81.14%、80.95%和0.6125。此外,训练集的Acc、Sen、Spe、Pre和Mcc的相对标准偏差(RelativeStandardDeviation,RSD)分别为0.21%、0.39%、0.43%、0.39%和0.45%。测试集各项评价指标的RSD分别为0.30%、0.61%、0.72%、0.53%和0.80%。以上结果表明,随机抽取负样本构建基准数据集是具有合理性,并且相应的测试结果波动不大,本方法对随机取样表现出良好的鲁棒性。从图2-2b中可以看到,对于训练集和训练集,当前方法在ROC曲线下的面积分别为0.9719和为0.8775。此外,训练集和测试集的PR曲线下面积分别为0.9728和0.8815,所得结果揭示了当前方法的有效性。同时,表明本文所提出的2.3实验结果2.3.1当前方法的性能在构建基准数据集的过程中,随机选择与正样本数量相同的负样本。为了考查一次随机抽取负样本?
广东药科大学硕士研究生学位论文17图2-3基于疾病症状相似性的不同数据集预测结果,(a)训练集统计结果,(b)测试集统计结果。Fig.2-3Theresultsofnon-redundantdatasetswithvariousthresholdbasedondiseasesymptoms.(a)resultsofthetrainingset.(b)resultsofthetestset2.3.4疾病-基因关联对冗余信息对性能影响对于疾病-基因关联对,通过上述方法计算两种疾病之间的相似度。然后,使用BLOSUM50打分矩阵和Needleman-Wunsch序列比对算法计算任意两个蛋白质之间的序列相似性。最后,通过计算相应疾病相似性和蛋白质序列相似性的平均值来衡量任意两个疾病-基因关联对的相似性。根据以上定义,任意两个疾病基因关联对的相似性始终位于[0,1]之间,“1”表示完全相同,而“0”表示完全不同。基于关联对的非冗余数据集的构建,设定阈值分别为0.9、0.8、0.7和0.6。这里需要注意的是,不仅要对正样本按阈值执行去冗余操作,而且对负样本集也执行相同操作。由于当阈值设定为0.5时,数据集中疾病-基因关联对的数据非常少,以至于没有统计意义,所以不采用低于0.6的阈值构建非冗余数据集。这些非冗余训练集和测试集的统计结果如图2-4所示,当阈值由0.9降低到0.7时,训练集的Acc从92.07%降至91.36%,Sen从91.15%降至90.40%,Spe从92.99%降至92.32%,Pre从92.86%降至92.17%,Mcc从0.8416降至0.8273。测试集的Acc从79.93%减小到79.11%,Sen从78.75%减小到77.51%,Spe从81.11%减小到80.72%,Pre从80.65%减小到80.08%,Mcc从0.5988减小到0.5826。当阈值由0.9减小至0.7时,训练集和测试集的性能评估指标的变化相对较小,揭示当前方法对于关联对的相似性具有良好的鲁棒性。当阈值从0.7进一步更改为0.6时,无论是训练集还是测试集,评估?
【参考文献】:
期刊论文
[1]中国新药创制的新内涵与新使命[J]. 敖翼,陈大明,濮润,孙燕荣. 国际药学研究杂志. 2019(01)
[2]地质领域机器学习、深度学习及实现语言[J]. 周永章,王俊,左仁广,肖凡,沈文杰,王树功. 岩石学报. 2018(11)
[3]基于粘液质理论4种抗白癜风维吾尔族药材的网络药理学机制研究[J]. 王吉烨,王晓琴,唐赟,张波. 中国中药杂志. 2018(09)
[4]青藤碱对子宫内膜异位症大鼠异位组织TNF-α和NF-κB水平的影响[J]. 易华,卢月,陈剑坤,杜标炎,刘爱军,罗惠. 南方医科大学学报. 2010(08)
[5]概述疾病与健康[J]. 贾庆良,刘琪. 中国健康教育. 2004(12)
本文编号:2944924
【文章来源】:广东药科大学广东省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
当前方法流程图
广东药科大学硕士研究生学位论文14图2-2随机抽取负样本测试结果统计。(a)10次实验的统计平均值(面板分别表示从当前方法训练集(红色)和测试集(蓝色)得出的Acc,Spe,Sen,Pre和Mcc的平均值。竖线表示相对标准偏差)。(b)ROC和PRC曲线基于当前方法训练集(红色)和测试集(蓝色)Fig.2-2Thestatisticresultsofrandomnegativesamples.(a)Thestatisticalaverageresultsof10experiments(ThepanelsindicatethemeanvaluesofAcc、Spe、Sen、PreandMccderivedfromthecurrentmethodtrainingset(red)andthetestset(blue),respectively.Theverticalbarsindicatetherelativestandarddeviations).(b)TheROCandPRCcurvesbasedonthecurrentmethodtrainingset(red)andthetestset(blue)训练集的Acc、Sen、Spe、Pre和Mcc的平均值分别为92.29%、91.52%、93.06%、92.95%和0.8459;对于测试集而言,平均值分别为80.63%、80.12%、81.14%、80.95%和0.6125。此外,训练集的Acc、Sen、Spe、Pre和Mcc的相对标准偏差(RelativeStandardDeviation,RSD)分别为0.21%、0.39%、0.43%、0.39%和0.45%。测试集各项评价指标的RSD分别为0.30%、0.61%、0.72%、0.53%和0.80%。以上结果表明,随机抽取负样本构建基准数据集是具有合理性,并且相应的测试结果波动不大,本方法对随机取样表现出良好的鲁棒性。从图2-2b中可以看到,对于训练集和训练集,当前方法在ROC曲线下的面积分别为0.9719和为0.8775。此外,训练集和测试集的PR曲线下面积分别为0.9728和0.8815,所得结果揭示了当前方法的有效性。同时,表明本文所提出的2.3实验结果2.3.1当前方法的性能在构建基准数据集的过程中,随机选择与正样本数量相同的负样本。为了考查一次随机抽取负样本?
广东药科大学硕士研究生学位论文17图2-3基于疾病症状相似性的不同数据集预测结果,(a)训练集统计结果,(b)测试集统计结果。Fig.2-3Theresultsofnon-redundantdatasetswithvariousthresholdbasedondiseasesymptoms.(a)resultsofthetrainingset.(b)resultsofthetestset2.3.4疾病-基因关联对冗余信息对性能影响对于疾病-基因关联对,通过上述方法计算两种疾病之间的相似度。然后,使用BLOSUM50打分矩阵和Needleman-Wunsch序列比对算法计算任意两个蛋白质之间的序列相似性。最后,通过计算相应疾病相似性和蛋白质序列相似性的平均值来衡量任意两个疾病-基因关联对的相似性。根据以上定义,任意两个疾病基因关联对的相似性始终位于[0,1]之间,“1”表示完全相同,而“0”表示完全不同。基于关联对的非冗余数据集的构建,设定阈值分别为0.9、0.8、0.7和0.6。这里需要注意的是,不仅要对正样本按阈值执行去冗余操作,而且对负样本集也执行相同操作。由于当阈值设定为0.5时,数据集中疾病-基因关联对的数据非常少,以至于没有统计意义,所以不采用低于0.6的阈值构建非冗余数据集。这些非冗余训练集和测试集的统计结果如图2-4所示,当阈值由0.9降低到0.7时,训练集的Acc从92.07%降至91.36%,Sen从91.15%降至90.40%,Spe从92.99%降至92.32%,Pre从92.86%降至92.17%,Mcc从0.8416降至0.8273。测试集的Acc从79.93%减小到79.11%,Sen从78.75%减小到77.51%,Spe从81.11%减小到80.72%,Pre从80.65%减小到80.08%,Mcc从0.5988减小到0.5826。当阈值由0.9减小至0.7时,训练集和测试集的性能评估指标的变化相对较小,揭示当前方法对于关联对的相似性具有良好的鲁棒性。当阈值从0.7进一步更改为0.6时,无论是训练集还是测试集,评估?
【参考文献】:
期刊论文
[1]中国新药创制的新内涵与新使命[J]. 敖翼,陈大明,濮润,孙燕荣. 国际药学研究杂志. 2019(01)
[2]地质领域机器学习、深度学习及实现语言[J]. 周永章,王俊,左仁广,肖凡,沈文杰,王树功. 岩石学报. 2018(11)
[3]基于粘液质理论4种抗白癜风维吾尔族药材的网络药理学机制研究[J]. 王吉烨,王晓琴,唐赟,张波. 中国中药杂志. 2018(09)
[4]青藤碱对子宫内膜异位症大鼠异位组织TNF-α和NF-κB水平的影响[J]. 易华,卢月,陈剑坤,杜标炎,刘爱军,罗惠. 南方医科大学学报. 2010(08)
[5]概述疾病与健康[J]. 贾庆良,刘琪. 中国健康教育. 2004(12)
本文编号:2944924
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2944924.html