基于基因表达谱的细菌sRNA靶标预测研究
本文选题:sRNA + 靶标 ; 参考:《中国人民解放军军事医学科学院》2011年硕士论文
【摘要】:细菌sRNA是一类广泛存在的调控RNA,其长度在40-500nt之间。随着生物信息学预测结合实验验证方法的应用,越来越多的sRNA被发现通过结合mRNA或蛋白靶标,在细菌的诸多生理过程中发挥着重要的调控作用,如调控细胞外膜蛋白,体内铁质代谢平衡,群体感应和毒力调节等。sRNA和靶标mRNA间以不完全的碱基互补结合,依据结合区域位置的不同,sRNA在转录后水平上对靶标基因产生抑制或促进作用。此外,大部分sRNA-mRNA间相互作用都需要伴侣蛋白Hfq,它起到维持sRNA稳定性,或者协助sRNA结合靶标的作用。 目前识别sRNA靶标,可运用实验方法和生物信息学预测两种方法。实验识别的优势在于可以直接证明sRNA-靶标间的相互作用,但操作复杂,劳动强度大。这些实验包括遗传学方法、亲和技术、微阵列技术和蛋白质组学等。生物信息学的优势在于可以快速、有效地为实验验证做出支持。目前的趋势是将这两者结合起来用于发现新的sRNA靶标。因此,构建一个有效的sRNA靶标预测模型十分重要。 目前,国内外已知共有五个基于序列信息的靶标预测模型,其中部分模型具有较高的预测精度。尽管基于序列的靶标预测模型为实验验证sRNA靶标提供了有力支持,但仍有以下两个问题:一是对于大多数sRNA预测出的靶标数目过于庞大,使实验验证产生了一定难度;二是预测出的潜在靶标无法保证具有实际功能,因为多数基因都是条件诱导的。 鉴于以上两个问题,本文开展了以下两方面的工作:首先,建立了一个经实验证实的综合性sRNA靶标数据库;其次,基于基因表达谱数据构建了一个细菌sRNA靶标预测模型sTarExp。 为构建数据库,我们通过系统阅读已经发表的sRNA研究相关文献,收集了诸如结合位点和突变位点等详细信息,用PHP和Mysql语言编程构建了一个sRNA靶标数据库sRNATarBase。目前,数据库共包含了381条mRNA靶标和11条蛋白质靶标。数据库的构建不仅对sRNA功能研究起到了辅助作用,更为sRNA靶标预测研究提供了基准训练集。 在构建基于基因表达谱的sRNA靶标预测模型构成中,我们仔细察看了一个综合性的sRNA数据库sRNAMap。最终从提取GEO数据库的GSE3665数据集作为表达数据的来源。根据综合GSE3665数据集和sRNATarBase两个方面信息,最终获得了一个包含64例阳性和158例阴性的训练集。 从理论上讲,sRNA和真实靶标mRNA之间在表达水平上必然存在着某种密切的相互关系。为此,我们提出了称为“随机相关系数”的策略,用来从原始数据集中构建1000个新的特征。最终通过计算,训练集中的64例阳性样本和158例阴性样本各包含1000个特征。然后,使用Na?ve Bayes判别法进行样本分类,以留一法交叉有效性分类精度LOOCV (leave-one-out cross-validation)为目标函数,采用逐步优化法筛选特征变量。通过稳定性分析挑选最佳的特征组合,结果表明,当特征数为5个时稳定性指标最高,为0.7806。此时的特征分别是33,270,391,438和958。最终,将稳定性分析获得最佳的特征集合用于构建1000个分类器,并命名为sTarExp。如果一对sRNA-mRNA组合有超过500个分类器判断其为阳性时,其最终结果即为阳性。 基于sTarExp的训练集的222个样本,其中23阳性样本(TP=23,FN=41)和155个阴性样本(TN=155,FP=3)得到正确预测。即模型的分类精度(Acc)、敏感性(Sn)、特异性( Sp )和阳性预测值( PPV )分别为79.28% ((TP+TN)/(TP+TN+FP+FN)),35.94% (TP/(TP+FN)),98.1% (TN/(TN+FP))和88.46% (TP/(TP+FP))。sTarExp的预测精度高于Zhang等人70.00 %的结果和TargetRNA的66.7%,但是低于本中心先前开发的sRNATargetNB的预测精度91.67%。 为了说明sTarExp模型性能,我们用模型对从GSE3665数据集中提取的47个sRNA和4023个mRNA的所有组合进行预测。sTarExp的结果显示,当P值=1.00时,sRNA靶标的个数分别从5到566不等,平均每个sRNA有111个靶标;P=值0.95时,靶标个数从33到1223不等,平均311个;P值=0.50时,sRNA靶标个数在48到1860,平均为614个。 为进一步提高预测效率,我们通过一个综合性策略,即整合基于基因表达谱和基于序列两种方法的预测结果预测sRNA靶标。利用本中心以前开发的基于序列的sRNA靶标预测模型sRNATarget对上述sRNA的靶标mRNA进行了预测。基于sTarExp和sRNATarget两种方法预测结果的交集表明,靶标数量明显减少。当P值=1.00时,sRNA靶标的个数为平均每个sRNA有5个靶标;P=值0.95时,靶标个数平均为20个;P值=0.50时,sRNA靶标个数平均为68个。 通过计算PPV值可见,综合策略的PPV值相对于sTarExp或sRNATarget任何一个模型得到了大幅度的提高。由此可见,综合策略的确能够为实验验证sRNA靶标提供更好的支持。 sTarExp模型的靶标预测结果和综合策略结果的详细信息,请见实验室网页http://ccb.bmi.ac.cn/starexp/。
[Abstract]:Bacterial sRNA is a wide range of regulatory RNA, and its length is between 40-500nt. With the application of bioinformatics prediction combined with experimental verification methods, more and more sRNA have been found to play an important regulatory role in many physiological processes of bacteria by combining with mRNA or protein target, such as regulating the outer membrane protein and the iron generation in the body. Xie Pingheng,.SRNA and target mRNA, such as quorum sensing and virulence regulation, are combined with incomplete bases, depending on the location of the binding region. SRNA inhibits or promotes the target gene at post transcriptional level. In addition, most of the interaction between sRNA-mRNA needs companion protein Hfq, which maintains the stability of sRNA, or Assist sRNA in combination with the target.
At present, two methods can be used to identify the sRNA target, the experimental method and the bioinformatics prediction method. The advantage of the experimental identification is that the interaction between the sRNA- targets can be proved directly, but the operation is complex and the labor intensity is great. These experiments include genetic methods, affinity technology, microarray technology and proteomics. The current trend is to combine the two to discover new sRNA targets. Therefore, it is important to build an effective sRNA target prediction model.
At present, there are five known target prediction models based on sequence information at home and abroad. Some of them have high prediction accuracy. Although the sequence based target prediction model provides strong support for the experimental verification of the sRNA target, there are still two problems as follows: first, the number of targets predicted by most sRNA is too large, so that the number of targets is too large, Experimental verification has produced some difficulty; two, the predicted potential targets cannot be guaranteed to have practical functions, because most genes are conditional induced.
In view of the above two problems, this paper has carried out the following two aspects: first, a comprehensive sRNA target database has been established by experimental verification. Secondly, a bacterial sRNA target prediction model, sTarExp., is constructed based on the gene expression profile data.
In order to build the database, we read the published sRNA research literature, collected detailed information such as binding sites and mutation sites, and programmed a sRNA target database sRNATarBase. with PHP and Mysql language. The database contains 381 mRNA targets and 11 protein targets. It not only plays a supplementary role in the research of sRNA function, but also provides a benchmark training set for sRNA target prediction research.
In the construction of the sRNA target prediction model based on the gene expression spectrum, we inspected a comprehensive sRNA database sRNAMap. that finally obtained the GSE3665 dataset from the GEO database as the source of the expression data. According to the integrated GSE3665 dataset and the sRNATarBase two aspects, a total of 64 cases were obtained. And 158 negative training sets.
In theory, there is a certain close relationship between the sRNA and the real target mRNA at the level of expression. To this end, we propose a "random correlation coefficient" strategy to build 1000 new features from the original data set. Finally, through calculation, 64 positive samples and 158 negative samples are trained. There are 1000 features. Then, the Na? Ve Bayes discriminant is used to classify the samples, and the classification accuracy LOOCV (leave-one-out cross-validation) is used as the target function, and the feature variables are selected by the stepwise optimization method. The best feature combination is selected by the stability analysis. The results show that the stability refers to the stability when the number is 5. The standard is the highest. The features at this time of 0.7806. are 33270391438 and 958., respectively. The best feature set is obtained by the stability analysis to construct 1000 classifiers and named sTarExp. if a pair of sRNA-mRNA combinations has more than 500 classifiers to judge it positive, the final result is positive.
222 samples of the sTarExp based training set, of which 23 positive samples (TP=23, FN=41) and 155 negative samples (TN=155, FP=3) were correctly predicted. The classification accuracy (Acc), sensitivity (Sn), specificity (Sp) and positive predictive value (PPV) of the model were 79.28% (TP+TN) / (TP+TN+FP+FN)), 35.94% (TP/), 98.1%, and 88.46%, respectively. The prediction accuracy of (TP/ (TP+FP)).STarExp is higher than that of Zhang et al. 70% and 66.7% of TargetRNA, but it is lower than the prediction precision of sRNATargetNB previously developed by the center.
To illustrate the performance of the sTarExp model, we use the model to predict.STarExp for all 47 sRNA and 4023 mRNA combinations extracted from the GSE3665 data set. When the P value =1.00, the number of sRNA targets ranges from 5 to 566, with an average of 111 targets per sRNA; when P= values 0.95, the number of targets varies from 33 to 1223, with an average of 311 When the P value is =0.50, the number of sRNA targets is 48 to 1860, with an average of 614.
To further improve the prediction efficiency, we predict the sRNA target using a comprehensive strategy, integrating the prediction results based on the gene expression spectrum and the sequence based two methods. Using the sequence based sRNA target prediction model previously developed by the center, the target mRNA of the above sRNA is predicted. Based on sTarExp and sRNATarget, the target mRNA is predicted. The intersection of the prediction results of the two methods shows that the number of targets is significantly reduced. When the P value is =1.00, the number of sRNA targets is 5 targets per sRNA, and the average number of target targets is 20 when P= is 0.95, and the average number of sRNA targets is 68 when P value =0.50.
By calculating the PPV value, the PPV value of the comprehensive strategy has been greatly improved by any model of sTarExp or sRNATarget. Thus, the comprehensive strategy can indeed provide better support for the experimental verification of the sRNA target.
Details of the sTarExp model's target prediction and the results of the integrated strategy are shown in the Lab Web page http://ccb.bmi.ac.cn/starexp/..
【学位授予单位】:中国人民解放军军事医学科学院
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:R346
【相似文献】
相关期刊论文 前10条
1 李海峰;;Guillain-Barré综合征患者发生呼吸衰竭的预测量表[J];中国神经免疫学和神经病学杂志;2011年04期
2 孙即昆;崔群山;杨鸿仁;李会庆;刘亚民;金世宽;;1991-2000年山东省恶性肿瘤死亡预测研究[J];肿瘤防治研究;1992年02期
3 朱骥;朱小东;梁世雄;徐志勇;赵建东;傅小龙;蒋国梁;;放射性肝病的神经网络模型预测研究[J];癌症进展;2006年04期
4 艾维莉;林新勤;徐永芳;黄家运;李素芬;;南宁市淋病1996~2005年发病率灰色模型及预测研究[J];中国热带医学;2007年09期
5 李艳红;王永华;杜逊甫;李燕;艾纯芝;杨凌;;人类转运蛋白中致病性nsSNPs的预测[J];辽宁师范大学学报(自然科学版);2008年03期
6 蒋翔;黄玉;高桂生;;医院住院人数与医疗收入回归预测研究[J];中国科技信息;2007年23期
7 王琳,王玉娟,连方;卵巢反应性预测研究进展[J];中国计划生育学杂志;2005年06期
8 何玮;杨春华;;Arrowsmith在药物副作用预测研究中的应用探讨[J];医学信息学杂志;2006年06期
9 谭清武;李庆华;;老年多器官功能不全综合征的预测研究近况[J];临床军医杂志;2007年01期
10 赵金星;袁慧;;聊城市麻疹发病预测研究及经济学评价[J];预防医学论坛;2007年08期
相关会议论文 前10条
1 祝煜;梁雪春;肖迪;;基于动态聚类RBF网络的小企业信贷预测研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 梁德成;王德吉;邱道尹;栗卫军;;卷烟焦油预测研究[A];2009年中国智能自动化会议论文集(第五分册)[东南大学学报(增刊)][C];2009年
3 张永军;朱立伟;樊继壮;;离心式压缩机性能预测研究[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年
4 刘伟昌;陈怀亮;徐爱东;张宏;武建华;;驻马店地区小麦条锈病的灰色预测研究[A];中国气象学会2007年年会生态气象业务建设与农业气象灾害预警分会场论文集[C];2007年
5 张翠琼;田宝;;我国保安员犯罪可能性预测研究[A];第十二届全国心理学学术大会论文摘要集[C];2009年
6 张颖;李彩娟;;基于模糊反向传播网络的海洋藻类生长状态预测研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
7 纪建悦;栾绍朔;姜兴坤;;基于修正STIRPAT模型的山东省碳排放分析及其预测研究[A];第十三届中国管理科学学术年会论文集[C];2011年
8 马文涛;;参数优化LSSVM的巷道围岩松动圈预测研究[A];第九届全国岩土力学数值分析与解析方法讨论会论文集[C];2007年
9 徐学东;;既有铁路混凝土桥梁疲劳寿命预测及可靠性分析[A];工程安全及耐久性——中国土木工程学会第九届年会论文集[C];2000年
10 任振球;;特大自然灾害预测研究的新思维、新方法[A];2001年中国地球物理学会年刊——中国地球物理学会第十七届年会论文集[C];2001年
相关重要报纸文章 前10条
1 于德福;陕西:划分铁铝预测研究区[N];地质勘查导报;2009年
2 李守运;山东预测研究昌邑—平度隐伏金矿[N];中国国土资源报;2008年
3 记者 胡晓峰;《船用钢材供需预警与价格预测研究》通过评审[N];中国船舶报;2009年
4 吴庭芳;《中国西北干旱气候变化与预测研究》出版[N];中国气象报;2001年
5 记者 杨绮薇 通讯员 钟苹;韶关霜冻预测研究获省科技厅立项[N];中国气象报;2010年
6 本报记者 张超;预测模型:推算SARS起落潮[N];科技日报;2003年
7 刘庆;“预测模型”要缓行[N];网络世界;2006年
8 珑铭;加强灾害预测研究把损失降至最小[N];上海证券报;2008年
9 王雪飞;儿童多动症有了疗效预测模型[N];健康报;2006年
10 宁莲;大连调查队预测研究居民住房需求[N];中国信息报;2008年
相关博士学位论文 前10条
1 杨林楠;三化螟和斑潜蝇发生预测模型研究与应用[D];电子科技大学;2010年
2 袁赓;油气管道的腐蚀及预测研究[D];大连理工大学;2011年
3 李硕;基于可见近红外成像光谱技术土壤剖面氮的预测研究[D];华中农业大学;2013年
4 马军伟;基于机器学习方法的蛋白质亚细胞定位预测研究[D];大连理工大学;2011年
5 齐妙;开放骨架磷酸铝合成反应预测研究[D];东北师范大学;2010年
6 陈广胜;基于神经网络的人工林落叶松木材材质预测研究[D];东北林业大学;2006年
7 雷达;基于智能学习模型的民航发动机健康状态预测研究[D];哈尔滨工业大学;2013年
8 常丽霞;服装流行色的量化与预测研究[D];江南大学;2013年
9 张瑞;不常用备件需求预测模型与方法研究[D];华中科技大学;2011年
10 夏国恩;基于商务智能的客户流失预测模型与算法研究[D];西南交通大学;2007年
相关硕士学位论文 前10条
1 吴佳瑶;基于基因表达谱的细菌sRNA靶标预测研究[D];中国人民解放军军事医学科学院;2011年
2 韩海燕;纳入水价的荣县城乡生活需水量预测研究[D];西南交通大学;2010年
3 王秀;基于灰色理论和神经网络的道路交通事故预测研究[D];山东科技大学;2007年
4 高峰;基于灰色理论的潜油电泵振动状态预测研究[D];北京化工大学;2010年
5 穆文瑜;煤矿多传感器混沌时序数据融合预测研究[D];山西大学;2012年
6 邹文;基于模式识别的风电功率预测研究[D];华北电力大学;2011年
7 赵雅琳;基于机器学习的细菌sRNA靶标预测研究[D];中国人民解放军军事医学科学院;2008年
8 王小乐;煤矿风机运行状态的预测研究[D];河北联合大学;2013年
9 刘艳萍;近地边界层风场模拟与预测研究[D];湖南大学;2010年
10 朱章勇;城市交通发展需求预测研究[D];华南理工大学;2012年
,本文编号:1950508
本文链接:https://www.wllwen.com/xiyixuelunwen/1950508.html