DBN在蛋白质编码区识别问题中的应用研究
发布时间:2021-07-08 07:19
针对真核生物DNA序列中蛋白质编码区的识别问题,提出基于深度置信网络(Deep Belief Network,DBN)的组合模型。通过信号处理技术对真核生物的DNA序列进行数值转换,并结合统计学知识提取转换后DNA序列的数值特征;利用随机森林对所提取的特征变量降维;用深度置信网络模型对DNA序列分类判别;根据短时傅里叶变换(Short Time Fourier Transform,STFT)技术对外显子区准确定位。在三个标准测试集上比较组合模型与传统Logistic回归模型、贝叶斯判别模型的判别效果,结果显示,深度置信网络组合模型的准确率和特异度等指标都明显优于Logistic回归模型和贝叶斯判别模型。
【文章来源】:计算机工程与应用. 2020,56(04)北大核心CSCD
【文章页数】:9 页
【部分图文】:
真核生物的蛋白质编码区图示
为了更好地对深度置信模型进行训练,将原始数据集分为两部分,一部分作为训练集,另一部分作为测试集,其中前70%的数据作为测试集,后30%的数据作为训练集。具体数据分布如表6所示。3 真核生物蛋白质编码区识别模型的建立
本文以测试集的前5条DNA序列为例,将深度置信网络模型的输出值输入STFT模型中对编码区进行定位,由此可以得到不同DNA序列的时频谱在位置轴上的投影,如图4所示。从图中可以看出,外显子区域和内含子区域在固定频率上是不一样的,也就是说在位置轴上投影的幅频特性有明显区别。因此根据DNA序列的STFT时频分析,可以确定出编码区的位置,其中峰值为2的是内含子所在区域,峰值为1的为外显子所在区域。根据图4可以看出,蓝线代表DNA序列的真实位点,红线代表DNA序列的预测位点,它们时域图重合的部分表明模型正确预测内外显子的位点,反之则预测有误。从图中可以看出,本文提出的基于深度置信网络的组合识别模型的判别能力较强,预测的位点也比较准确。
【参考文献】:
期刊论文
[1]深度置信网络模型及应用研究综述[J]. 刘方园,王水花,张煜东. 计算机工程与应用. 2018(01)
[2]基于改进深度置信网络的大棚冬枣病虫害预测模型[J]. 张善文,张传雷,丁军. 农业工程学报. 2017(19)
[3]基于深度置信网络的电力系统暂态稳定评估方法[J]. 朱乔木,党杰,陈金富,徐友平,李银红,段献忠. 中国电机工程学报. 2018(03)
[4]基于全相位频谱分析的基因识别算法研究[J]. 王飞宇,郑紫微,杨任尔. 宁波大学学报(理工版). 2016(02)
[5]稀疏自动编码器在文本分类中的应用研究[J]. 秦胜君,卢志平. 科学技术与工程. 2013(31)
[6]DNA序列数值映射方法的研究[J]. 饶妮妮,邱丽君. 生物医学工程学杂志. 2005(04)
博士论文
[1]若干统计计算模型研究及其在生物医学信息处理中的应用[D]. 刘广臣.山东大学 2016
[2]基于信号处理理论和方法的基因预测研究[D]. 马宝山.大连海事大学 2008
硕士论文
[1]基于序列信号特征SCM法的基因识别的MATLAB实现[D]. 王方舟.山东大学 2013
[2]基于信号处理方法的基因识别算法研究[D]. 王震.天津大学 2010
本文编号:3271123
【文章来源】:计算机工程与应用. 2020,56(04)北大核心CSCD
【文章页数】:9 页
【部分图文】:
真核生物的蛋白质编码区图示
为了更好地对深度置信模型进行训练,将原始数据集分为两部分,一部分作为训练集,另一部分作为测试集,其中前70%的数据作为测试集,后30%的数据作为训练集。具体数据分布如表6所示。3 真核生物蛋白质编码区识别模型的建立
本文以测试集的前5条DNA序列为例,将深度置信网络模型的输出值输入STFT模型中对编码区进行定位,由此可以得到不同DNA序列的时频谱在位置轴上的投影,如图4所示。从图中可以看出,外显子区域和内含子区域在固定频率上是不一样的,也就是说在位置轴上投影的幅频特性有明显区别。因此根据DNA序列的STFT时频分析,可以确定出编码区的位置,其中峰值为2的是内含子所在区域,峰值为1的为外显子所在区域。根据图4可以看出,蓝线代表DNA序列的真实位点,红线代表DNA序列的预测位点,它们时域图重合的部分表明模型正确预测内外显子的位点,反之则预测有误。从图中可以看出,本文提出的基于深度置信网络的组合识别模型的判别能力较强,预测的位点也比较准确。
【参考文献】:
期刊论文
[1]深度置信网络模型及应用研究综述[J]. 刘方园,王水花,张煜东. 计算机工程与应用. 2018(01)
[2]基于改进深度置信网络的大棚冬枣病虫害预测模型[J]. 张善文,张传雷,丁军. 农业工程学报. 2017(19)
[3]基于深度置信网络的电力系统暂态稳定评估方法[J]. 朱乔木,党杰,陈金富,徐友平,李银红,段献忠. 中国电机工程学报. 2018(03)
[4]基于全相位频谱分析的基因识别算法研究[J]. 王飞宇,郑紫微,杨任尔. 宁波大学学报(理工版). 2016(02)
[5]稀疏自动编码器在文本分类中的应用研究[J]. 秦胜君,卢志平. 科学技术与工程. 2013(31)
[6]DNA序列数值映射方法的研究[J]. 饶妮妮,邱丽君. 生物医学工程学杂志. 2005(04)
博士论文
[1]若干统计计算模型研究及其在生物医学信息处理中的应用[D]. 刘广臣.山东大学 2016
[2]基于信号处理理论和方法的基因预测研究[D]. 马宝山.大连海事大学 2008
硕士论文
[1]基于序列信号特征SCM法的基因识别的MATLAB实现[D]. 王方舟.山东大学 2013
[2]基于信号处理方法的基因识别算法研究[D]. 王震.天津大学 2010
本文编号:3271123
本文链接:https://www.wllwen.com/jingjilunwen/jiliangjingjilunwen/3271123.html