当前位置:主页 > 管理论文 > 领导决策论文 >

《中国人民解放军军事医学科学院》2008年硕士论文

发布时间:2017-02-06 08:18

  本文关键词:基于全方位优化算法的马田分类和排序评价方法研究及应用,由笔耕文化传播整理发布。


《中国人民解放军军事医学科学院》 2008年

基于机器学习的细菌sRNA靶标预测研究

赵雅琳  

【摘要】: 细菌基因组中存在着许多长度在40-500bp之间,不编码蛋白质的小RNA分子。例如,在大肠杆菌(E. coli)中经实验证实的小的非编码RNA数目已达到70多条。这些sRNA大部分结合于mRNA靶标的起始翻译区(TIR),并以碱基互补配对方式调控其靶基因的转录后表达,此过程通常需要伴侣蛋白Hfq的参与。当结合位点位于mRNA序列翻译起始密码子上游90-120nt之间时,sRNA的结合对mRNA的表达起促进作用,称其为正调控;当结合位点位于mRNA序列的SD序列附近时,sRNA的结合会阻碍核糖体与mRNA序列的结合,对mRNA的表达起阻遏作用,或者使sRNA与mRNA同时降解,此时称其为负调控。因此,准确的预测sRNA靶标对研究sRNA的功能起着关键的作用。由于目前已知正调控的样本数据很少,在这里我们只考虑负调控的情况。我们分别采用Na?ve Bayes方法和支持向量机方法构建了sRNA靶标预测数学模型sRNATargetNB和sRNATargetSVM。 为了构建sRNA靶标的预测模型,首先我们收集了46对阳性样本与86对阴性样本组成训练集(见附表1)。然后,考虑到负调控时结合位点的情况,我们选择mRNA序列起始翻译区上游-80nt到下游50nt的序列片段作为候选区间。最后,我们利用二级结构谱来寻找预测sRNA靶标的最优的区间组合。 为了评价预测模型,我们还构建了一个独立的包含了22个阳性样本的阳性测试集TESTP和十个随机产生的阴性测试集TESTN1-10。产生阴性测试集的方法如下:对于训练集中涉及到的每一条sRNA,从大肠杆菌全基因组注释的4131条mRNA序列中随机抽取10条,共组成10对阴性测试样本,此过程重复10次,构成十个阴性测试集(在选取过程中,排除了训练集中的132条mRNA序列)。因为训练集中共包含17条sRNA,所以在阴性测试集TESTN1-10中共含有样本1700个。 其次,提取用于构建模型的特征变量。对于每一个mRNA序列片段,我们围绕翻译起始区-30~30提取所有可能的子片段,共1000个。对于每一个这样的子片段,我们用“LLLLLL”将其与sRNA序列相连,形成sRNA-LLLLLL-mRNA和mRNA-LLLLLL-sRNA两种情况,再利用RNAfold程序分别预测其最低自由能结构,并以能量较低的结构为基础提取如下的10个特征变量:相连序列中内部环、凸环、发夹环、螺旋区及多分支环中的碱基数占相连序列总碱基数的比例(特征变量1-5),相连序列中单碱基的自由能ΔG_m / L_m(特征变量6),两条序列相结合前后的能量差值ΔG_m-ΔG_s-ΔG_T(特征变量7),sRNA与mRNA序列子片段之间形成的核心配对的碱基数(Seed match)(特征变量8),sRNA二级结构中的单链区AU碱基所占的比例和mRNA序列子片段中的单链区AU碱基所占的比例(特征变量9-10)。由于每一条mRNA序列片段都产生1000条子序列,而每一对sRNA-子序列都会有10个特征变量,这样对于每一个sRNA-mRNA序列片段,均可用10000个参数来描述。对于之前构建的包含132个样本的训练集来说,我们得到了一个大小为10000×132的数值矩阵。我们称这个矩阵为sRNA-mRNA相互作用的二级结构谱。鉴于我们的目标是预测sRNA与mRNA序列之间的相互作用,因此可采用机器学习方法来构建模型。 Naive Bayes方法,我们以留一交叉有效性分类精度(leave-one-out crossvalidation, LOOCV)为目标函数,以逐步优化算法进行特征变量的筛选,来构建sRNA靶标预测模型sRNATargetNB。Tclass分类系统自动搜寻特征变量数目从1到20的最优特征变量组合。对于每个数目的特征变量集,会产生10组由不同特征变量组成的集合。通过稳定性分析,我们得到了一组包含6个特征变量的最优集合,并以此为基础构建1000个分类器并组成预测模型sRNATargetNB。对于训练集,这个预测模型的分类精度、敏感性和特异性分别为91.67%,76.09%和100%;对于测试集,其分类精度、敏感性和特异性分别达到93.03%,40.90%和93.71%。 SVM方法,我们利用LibSVM(V2.83)包来构建sRNA靶标预测模型sRNAtargetSVM。为了与模型sRNATargetNB相比较,我们同样采用了LOOCV分类精度作为目标函数。首先,我们构建了三个特征变量集SET1,SET2,和SET3来分别构建分类模型。SET1包含了10000个参数,SET2则以P值小于0.001为标准,共含有3090个参数,而SET3中的参数共有1785个,,都是P值小于0.00001的参数。对于这三个特征向量集,我们分别利用LibSVM中的网格搜索策略搜索近优的惩罚参数C和RBF核参数γ,并以此构建分类模型sRNATargetSVM1、sRNATargetSVM2和sRNATargetSVM3。模型sRNATargetSVM1的分类效果最佳。与分类模型sRNATargetNB(91.67%)相比,sRNATargetSVM1取得了更好的结果,对于训练集,分类精度、敏感性和特异性均为100%;对于测试集,分类精度、敏感性和特异性分别为80.55%, 72.73%和80.65%。 尽管sRNATargetSVM1具更高的敏感性,但是我们仍然选择模型sRNATargetNB(阈值=1000)来进行sRNA靶标预测。原因如下:首先,对于每一对sRNA-mRNA的判别,模型sRNATargetNB只需要提取6个特征变量,而模型sRNATargetSVM1则需要提取10000个特征变量,花费更多的时间。其次,模型sRNATargetNB(阈值=1000)具有更高的特异性,相比之下会产生较少的假阳性,得到较少的靶标预测结果,更易于进行实验验证。我们采用sRNATargetNB对E. coli中的55条sRNA进行了靶标预测,当阈值为1000时,预测得到的sRNA靶标数目从3到1055不等。 总的说来,我们构建的这个sRNA靶标预测模型,不仅适用于大肠杆菌的sRNA靶标预测,而且也适用于其它细菌中sRNA的靶标预测工作。例如,在阳性测试集中包含的16对来自沙门氏菌的sRNA-mRNA样本,其中有9对被正确预测。由此可说,我们构建的数学模型为实验发现sRNA靶标提供了生物信息学支持。

【关键词】:
【学位授予单位】:中国人民解放军军事医学科学院
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:Q93
【目录】:

  • 英文缩略语词表4-5
  • 中文摘要5-8
  • 英文摘要8-11
  • 前言11-14
  • 第一部分 数据来源及特征提取14-17
  • 1、数据来源14
  • 2、特征提取14-17
  • 第二部分 分类器的构建17-24
  • 1.Na(?)ve Bayes 方法构建分类器17-20
  • 2、特征分析20-21
  • 标准t-检验分析20-21
  • 3.SVM方法构建分类器21-22
  • 4、对测试集判别结果的比较22-23
  • 5、与其它分类模型的比较23-24
  • 与分类模型TargetRNA相比较23-24
  • 第三部分 基因组预测24-26
  • 第四部分 讨论26-29
  • 第五部分 总结29-30
  • 参考文献30-34
  • 附录34-45
  • 论文发表情况45-46
  • 个人简历46-47
  • 致谢47
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【共引文献】

    中国期刊全文数据库 前10条

    1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期

    2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期

    3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期

    4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期

    5 杨泽民;谢数涛;章群;张俊彬;;RNA二级结构预测及其在分子分类研究中的应用[J];安徽农业科学;2012年07期

    6 张伟;金萍;侯林;马飞;;海鞘(Ciona intestinalis)新microRNA基因的识别及其靶标预测[J];安徽农业大学学报;2010年04期

    7 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期

    8 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期

    9 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期

    10 李卓远,吴为民,王旸,洪先龙;一种新的光学临近校正方法(英文)[J];半导体学报;2003年12期

    中国重要会议论文全文数据库 前10条

    1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年

    2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年

    3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年

    4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年

    5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年

    6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年

    7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年

    8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

    9 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年

    10 颜七笙;;基于PCA-SVM的动态联盟候选伙伴绩效评价方法[A];第十三届中国管理科学学术年会论文集[C];2011年

    中国博士学位论文全文数据库 前10条

    1 王鑫;Pre-mRNA选择性剪接调控机制研究[D];哈尔滨工程大学;2009年

    2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年

    3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年

    4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年

    5 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年

    6 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年

    7 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年

    8 靳宇;RNA带扭结结构的组合研究[D];南开大学;2010年

    9 秦晶;核糖核酸结构:三级联接与相互作用[D];南开大学;2010年

    10 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年

    中国硕士学位论文全文数据库 前10条

    1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年

    2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年

    3 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年

    4 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年

    5 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年

    6 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年

    7 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年

    8 韩艳;基于支持向量机的发酵过程建模研究[D];大连理工大学;2010年

    9 马稳;基于支持向量机的模拟电路故障诊断研究[D];大连理工大学;2010年

    10 梁怀志;基于嵌入式的车型分类系统的设计与实现[D];大连理工大学;2010年

    【相似文献】

    中国期刊全文数据库 前10条

    1 杨智博;孙和平;;基于仿人智能积分的Fuzzy-PD控制器性能优化研究[J];北华大学学报(自然科学版);2009年05期

    2 于剑;阎超;;两类激波捕捉格式的性能分析[J];北京航空航天大学学报;2010年01期

    3 阮爱国,李清河;非均匀各向异性弹性波场正演[J];西北地震学报;2001年04期

    4 于剑;阎超;姜振华;;可压缩流动的高分辨率低耗散混合格式研究(英文)[J];Chinese Journal of Aeronautics;2011年04期

    5 贺黎明;陈孔常;;用人工神经网络计算双原子分子的键长[J];计算物理;1996年02期

    6 王进军;陶晓风;王武军;;聚类方法在电气石颜色成因研究中的应用[J];东华理工学院学报;2006年01期

    7 郗伟东;孙永海;石玉月;周景宏;;基于质量安全的猪肉消费者特征分析[J];中国畜牧杂志;2009年06期

    8 李世丰;蔡炳新;;热力学函数关系图的研制[J];中南大学学报(自然科学版);1990年02期

    9 许旋,梁尧;化学模式识别方法在稀土元素分离中的应用[J];华南师范大学学报(自然科学版);1995年03期

    10 徐徽;;热力学状态函数关系图在物理化学教学中的应用[J];现代大学教育;1991年01期

    中国重要会议论文全文数据库 前10条

    1 张铁明;谭延敏;董启林;吴畏;胡庆山;刘志红;;农村非正式结构体育社团形成的群体动力效应研究[A];全民健身科学大会论文摘要集[C];2009年

    2 周清明;;农户种粮意愿的影响因素分析[A];第二届湖湘三农论坛论文集[C];2009年

    3 秦玉峰;杨建滨;解春红;邵洁;赵正言;;22q11 DS的临床特征和实验室诊断结果相关分析的研究[A];第六届江浙沪儿科学术会议暨儿科学基础与临床研究进展学术班论文汇编[C];2009年

    4 刘燕德;;动态在线赣南脐橙可溶性固形物检测模型优化研究[A];中国农业工程学会2011年学术年会(CSAE 2011)论文摘要集[C];2011年

    5 赵红梅;赵天忆;;绩效评价中主管评价与自我评价的差异性研究[A];第四届(2009)中国管理学年会——组织行为与人力资源管理分会场论文集[C];2009年

    6 陈毅峰;李秀启;李堃;严云志;唐卫星;;外来鱼类入侵云南抚仙湖的特征分析和高原水体入侵风险预测[A];中国海洋湖沼动物学会鱼类学分会第七届会员代表大会暨朱元鼎教授诞辰110周年庆学术研讨会学术论文摘要集[C];2006年

    7 鲁桂华;陈晓;;“庄”与会计盈余的价格含义[A];中国会计学会2005年学术年会论文集(上)[C];2005年

    8 余训民;胡钰倩;;氯代芳烃类化合物对生物活(毒)性的构效研究[A];中国化学会第四届有机化学学术会议论文集[C];2005年

    9 何为;肖隽;毕开顺;;吴茱萸质量评价方法的研究[A];第四届中国新医药博士论坛论文集[C];1999年

    10 九七三课题组;;以血瘀证为切入点进行中医证候规范及其生物学基础的研究[A];中国当代新医药论丛[C];2004年

    中国重要报纸全文数据库 前9条

    1 蒲国永 周建君 本报记者 晏燕;[N];科技日报;2004年

    2 本报记者 吴琼;[N];上海证券报;2008年

    3 铁木;[N];证券时报;2006年

    4 本报记者  安领弟 实习生 宋秋佳;[N];中华建筑报;2006年

    5 本报记者 董毅然;[N];北京科技报;2005年

    6 本报通讯员;[N];中国审计报;2007年

    7 刘凌林;[N];中国企业报;2003年

    8 梁雄军;[N];中国经济时报;2011年

    9 本报记者 吴佩;[N];农民日报;2011年

    中国博士学位论文全文数据库 前10条

    1 靳涛;火电机组反向建模方法的研究[D];华北电力大学(北京);2011年

    2 陆霄虹;中国当代绘画艺术作品特征价格研究[D];南京航空航天大学;2009年

    3 鲁万波;基于特征变量的中国股票市场微观结构数量研究:日内模式、持续时间与价格发现[D];西南财经大学;2009年

    4 牛俊磊;基于全方位优化算法的马田分类和排序评价方法研究及应用[D];南京理工大学;2012年

    5 丛剑波;基于CAPM两因素模型的个股波动率分解的实证分析[D];吉林大学;2009年

    6 吴瑞梅;名优绿茶品质感官评价的仪器化表征研究[D];江苏大学;2012年

    7 陈湘来;关于马田系统若干问题的研究[D];南京理工大学;2008年

    8 杨虎;多区域时域伪谱算法在电磁分析中的理论和应用研究[D];国防科学技术大学;2006年

    9 刘弢;信用评分理论与应用研究[D];湖南大学;2010年

    10 孙亚南;中国个人信用管理体系建设研究[D];中国人民大学;2008年

    中国硕士学位论文全文数据库 前10条

    1 顾光同;基于LARS-Lasso方法及GLM的特征价格模型构建研究[D];云南财经大学;2011年

    2 宋羽;基于特征变量与多层SOM的可视化在线监控研究[D];华东理工大学;2014年

    3 夏华平;赣州市住宅市场的特征价格研究[D];江西理工大学;2011年

    4 陈静静;城市商品住宅特征价格问题研究[D];东北财经大学;2007年

    5 王建星;反向建模在复杂热力系统建模中的应用研究[D];华北电力大学;2012年

    6 唐三阳;基于特征价格模型的商品住宅价格研究[D];哈尔滨工业大学;2006年

    7 赵芳华;产品系统中外延产品设计开发方法探究[D];河北工业大学;2006年

    8 刘亮;统计方法与BP网络在编制液晶电视特征价格指数中的应用[D];云南财经大学;2010年

    9 王舒伊;城市二手住房价格指数模型及应用研究[D];四川大学;2007年

    10 何福田;CFO、公司治理与公司业绩[D];湖南大学;2008年


      本文关键词:基于全方位优化算法的马田分类和排序评价方法研究及应用,由笔耕文化传播整理发布。



    本文编号:240345

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/240345.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户a6ef2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com