当前位置:主页 > 科技论文 > 基因论文 >

细菌蛋白质编码基因识别系统的研究

发布时间:2020-03-20 05:47
【摘要】:基因识别是对DNA序列进行分析,获取其中重要信息的第一步。目前测序技术的发展使得测序数据呈爆发式增涨,然而实验方法无法快速有效的从海量信息中获取知识,基于此运用计算机技术来识别基因的方法应运而生。在2015年,我们课题组研发了原核生物基因识别程序ZCURVE3.0,该算法是基于Z曲线理论,采用新的机器学习算法SVM,增加新的特征变量,并且对内部参数进行进一步的优化,使得该识别算法更加快速准确高效。在预测出基因后,还需要知道其相应编码的蛋白质,于是我们基于ZCURVE3.0算法,对其进行进一步的升级,添加相关的功能,使得其成为完善的可视化集成系统。在本基因识别可视化系统中,第一部分是对ZCUREV3.0的功能进行可视化(BAGA)实现,其保留了相应识别算法的所有功能。在通过对50个原核生物的全基因组进行测试,选取比对阈值,排除伪基因,同时使得删除的正确基因数尽可能少,那样基本保持正确的基因数不变。在与GenBank提供的总的基因数相比,BAGA的预测基因识别率为97.60%,预测结果的特异度为96.74%,与ZCURVE3.0的特异度94.21%相比有2%的提升。BAGA附加预测率为3.34%,比ZCURVE3.0(6.08%)下降接近3%。附加预测率的降低,表明其预测错误的基因数目相比ZCURVE3.0有更进一步的减少。第二部分是对于ZCURVE3.0和Prodigal两个基因预测软件联合方法(BAGA2.0)的实现,通过保留两者预测相同的基因,对不同的基因进行序列比对,调节合适的参数,保留比对得分较高的基因,将这两部分的基因作为最终联合预测的基因。BAGA2.0对应的识别率为98.73%,特异度为96.09%。这两者性能,都比ZCURVE3.0效果要好。另一方面,BAGA2.0的附加预测率为4.08%比ZCURVE3.0(6.08%)要低。综合来看,联合两者来识别细菌的基因性能要更优。此外,虽然BAGA2.0的特异度比BAGA要低,其附加预测率要大,但是其识别率和准确度却更佳。在本文中采用BLAST序列比对实现了对于预测的基因进行功能注释,对于系统中实现的两部分的预测结果都能够实现注释,而且能够选择快速注释和完全注释两者不同方式。同时,集成基因组岛预测程序。我们将此完善的集成软件编译成各种不同系统的版本,使用者能够访问http://cefg.cn/zcurve-visualization/下载,并免费使用。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q78

【相似文献】

相关期刊论文 前10条

1 陈建明;人的基因数到底是多少?[J];生命的化学;2000年05期

2 周海廷;基因识别计算方法的回顾与展望[J];绵阳经济技术高等专科学校学报;2002年04期

3 曹胜玉;刘来福;;隐马模型及其在基因识别中的应用[J];数学的实践与认识;2006年09期

4 徐娅;葛成伟;赵礼翔;饶凤;程浩;;双特征参数基因识别算法实现[J];数学的实践与认识;2013年14期

5 范宗理;;人类基因数为何如此少?[J];自然杂志;2006年01期

6 吴佳楠;周春光;夏雪飞;刘桂霞;沈薇;周柚;;基于简单统计排名模型的差异表达基因识别[J];吉林大学学报(工学版);2013年04期

7 吴佳楠;周春光;刘桂霞;沈薇;郑明;周柚;;基于元分析的差异表达基因识别[J];吉林大学学报(工学版);2012年05期

8 杨东;张洋;宋阳;;基因识别问题及其算法实现[J];数学的实践与认识;2013年14期

9 石磊;人类的基因数为何如此之少?[J];世界科学;2005年09期

10 古毅伟;王松;张旭;张茹;刘建毅;仝辉;;基因识别及其算法研究[J];数学的实践与认识;2013年14期

相关会议论文 前1条

1 王婷;明媚;万芷君;阎宗帅;;基因识别中的阈值确定算法[A];广西计算机学会2012年学术年会论文集[C];2012年

相关重要报纸文章 前2条

1 李讯;细菌蛋白质有保护消化道作用[N];中国医药报;2008年

2 刘霞;美成功干预细菌蛋白质制造过程[N];科技日报;2011年

相关博士学位论文 前2条

1 周柚;基因识别和微阵列数据识别算法研究[D];吉林大学;2008年

2 邢锋;籼稻珍汕97和明恢63基因组的注释和比较分析[D];华中农业大学;2016年

相关硕士学位论文 前10条

1 袁亚洲;细菌蛋白质编码基因识别系统的研究[D];电子科技大学;2017年

2 KALYKOVA NURGUL;对外汉语初级教材俄文注释研究[D];上海外国语大学;2017年

3 张倩;高中语文教科书现代文注释问题研究[D];上海师范大学;2017年

4 王璐;基于统计的基因识别问题及其算法研究[D];西安建筑科技大学;2014年

5 赵吉云;语境视角下的对外汉语教材注释设置研究[D];广西大学;2017年

6 张怡蕾;人教版高中语文文言文篇目注释研究[D];宁夏大学;2017年

7 何海峰;基于新型特征的基因识别方法研究[D];湖南大学;2011年

8 房颖;基于统计的基因识别算法研究[D];吉林大学;2007年

9 陈爱明;基于频谱分析的基因识别算法研究[D];华南理工大学;2014年

10 郭睿;基于序列统计特征的基因识别算法研究[D];哈尔滨工业大学;2017年



本文编号:2591346

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2591346.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户123dd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com