当前位置:主页 > 科技论文 > 自动化论文 >

基于机器学习方法的冷胁迫蛋白识别

发布时间:2018-08-07 09:59
【摘要】:冷胁迫对生物的生长和生活有着极度严重的影响,尤其是对植物来说。对植物的冷胁迫调节机制的研究,对相关的生物技术研究以及提高农作物产量等都有重要意义。当前,对植物冷胁迫蛋白的识别主要依靠人工进行,这种方式费时费力。截止目前,通过前期的资料整理,对整个拟南芥的蛋白数据库进行统计,已发现的与冷胁迫相关的蛋白仅有594条。所以,利用机器学习的方法,通过对已有的数据进行训练和预测,以为生物实验提供数据支持,具有一定的意义和研究价值。在本课题中,仅仅有正例的数据以及拟南芥的全部蛋白质序列,其中在后者中包含很多的未发现的冷胁迫蛋白序列。所以,这里首先考虑了PU Learning方法,从理论上来讲PU Learning是最合适的方法之一。将除正例数据之外的蛋白序列作为未标记的数据。尝试了PUCPI和LibD3C两种当前比较常用的PU Learning算法,但结果仅在50%上下。之后开始采用常用的分类算法进行尝试,将之前的未标记数据作为负例数据处理,并在LibSVM中得到了较好的结果。除了对分类算法的尝试,实验中还尝试了多种特征提取方法,如Pse-One、K-SkipN-Gram、Information Theory等,以及对多种特征提取方法的组合。此时,分类的准确率提高到了80%以上。在最后,一个新的负例集合被构造出来(这样可以有效的降低负例集中包含的未发现的冷胁迫蛋白的数量),并把分类准确率提高到了85%左右,取得了较好的结果。在寻找到了一个较好的冷胁迫蛋白的预测方法后,对现有的数据进行了整理并搭建了冷胁迫蛋白数据库网站。网站采用了Maven、Spring Boot,Mybatis,Mysql、VUE等主流Java Web开发技术,主要使用Java语言进行开发。为使用者提供了对拟南芥冷胁迫蛋白进行序列浏览、全文检索(Lucence)、序列比对(Blast)与分类预测等功能。
[Abstract]:Cold stress has an extremely serious effect on the growth and life of organisms, especially for plants. The study on the regulation mechanism of plant cold stress is of great significance to the study of biotechnology and the improvement of crop yield. At present, the recognition of plant cold stress protein mainly depends on manual, which is time-consuming and laborious. Up to now, only 594 proteins related to cold stress have been found in the whole Arabidopsis protein database. Therefore, it is of significance and research value to provide data support for biological experiments by training and forecasting the existing data by using the method of machine learning. In this study, there are only positive data and all the protein sequences of Arabidopsis thaliana, in which there are many undiscovered cold stress protein sequences. Therefore, the pu Learning method is considered first. In theory, pu Learning is one of the most suitable methods. The protein sequences other than the positive data are taken as unlabeled data. Two popular pu Learning algorithms, PUCPI and LibD3C, are tried, but the results are only about 50%. Then the common classification algorithm was used to process the unlabeled data as negative case data, and a good result was obtained in LibSVM. In addition to the attempt of the classification algorithm, we also try a variety of feature extraction methods, such as Pse-Oneone-K-SkipN-Gram-GramInformation Theory, as well as the combination of various feature extraction methods. At this point, the accuracy of classification improved to more than 80%. Finally, a new negative case set is constructed (which can effectively reduce the number of undiscovered cold stress proteins contained in the negative case set), and the classification accuracy is improved to about 85%, and good results are obtained. After finding a better prediction method of cold stress protein, the existing data were sorted out and the database website of cold stress protein was set up. The website adopts the mainstream Java Web development technology, such as Maven Spring Boot Java Web. It mainly uses the Java language to develop. The users can browse the cold stress proteins of Arabidopsis thaliana and search the functions of (Lucence), sequence alignment (Blast) and classification prediction.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q946.1;TP181

【相似文献】

相关期刊论文 前10条

1 佘玉梅;一种协调机器学习方法研究[J];云南民族学院学报(自然科学版);2000年03期

2 王珏,石纯一;机器学习研究[J];广西师范大学学报(自然科学版);2003年02期

3 张震;李军利;;机器学习方法及其在生物信息学中的应用[J];吉首大学学报(自然科学版);2006年04期

4 许程;;机器学习的主要策略与基本结构[J];科技资讯;2010年03期

5 黄蔚;;浅析机器学习及其在教育中的应用[J];科技信息;2011年18期

6 曹加恒;汤怡群;姚唐;;机器学习研究[J];武汉大学学报(自然科学版);1988年01期

7 林士敏;机器学习概况[J];广西师范大学学报(自然科学版);1989年02期

8 卢美律;张渡;;机器学习:理论、方法及应用[J];科学;1995年02期

9 罗芳;李志亮;;基于分类的机器学习方法中的决策树算法[J];宁德师专学报(自然科学版);2009年01期

10 李钧涛;杨瑞峰;左红亮;;统计机器学习研究[J];河南师范大学学报(自然科学版);2010年06期

相关会议论文 前10条

1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年

2 王昊;李银波;纪志梁;;利用机器学习方法预测严重药物不良反应-呼吸困难[A];中国化学会第28届学术年会第13分会场摘要集[C];2012年

3 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年

4 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年

5 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年

6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年

7 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

8 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年

9 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年

10 张钹;张铃;;统计学习理论及其应用[A];2001年中国智能自动化会议论文集(上册)[C];2001年

相关重要报纸文章 前10条

1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年

2 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年

3 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年

4 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年

5 百度公司技术副总监 多媒体部负责人 余凯;深度学习与多媒体搜索技术演进[N];中国信息化周报;2013年

6 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年

7 本报记者 张晔邋通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年

8 记者  彭德倩;机器学习精度提升近6个百分点[N];解放日报;2006年

9 本报记者 闵杰;大数据热 高端人才缺[N];中国电子报;2013年

10 沈建苗 编译;如何成为大数据科学家[N];计算机世界;2013年

相关博士学位论文 前10条

1 董春茹;机器学习中的权重学习与差分演化[D];华南理工大学;2015年

2 姚明臣;机器学习和神经网络学习中的若干问题研究[D];大连理工大学;2016年

3 Maxim Pecionchin;[D];对外经济贸易大学;2016年

4 杜宇;基于深度机器学习的体态与手势感知计算关键技术研究[D];浙江大学;2017年

5 钟锦红;群智学习若干问题研究[D];中国科学技术大学;2017年

6 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年

7 鲁路;基于机器学习优化分子对接筛选肾衰营养胶囊有效成分[D];南方医科大学;2017年

8 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年

9 胡巍;面向格结构的机器学习[D];上海交通大学;2009年

10 张义荣;基于机器学习的入侵检测技术研究[D];国防科学技术大学;2005年

相关硕士学位论文 前10条

1 毛海斌;基于半监督机器学习的情感分类领域适应问题研究[D];南京理工大学;2015年

2 安军辉;基于微博数据的微博用户性别判断研究[D];华中师范大学;2015年

3 陈召阳;基于机器学习的改性麦槽吸附重金属构效关系模型研究[D];江西理工大学;2014年

4 王成;基于半监督机器学习的文本情感分析技术[D];南京理工大学;2015年

5 孙科;基于Spark的机器学习应用框架研究与实现[D];上海交通大学;2015年

6 刘江龙;基于机器学习的射频指纹定位方法研究[D];电子科技大学;2015年

7 张蕾;基于机器学习的网络舆情采集技术研究与设计[D];电子科技大学;2014年

8 施宇;基于数据挖掘和机器学习的木马检测系统设计与实现[D];电子科技大学;2014年

9 施应敏;基于机器学习的Femtocell信道频谱与功率资源分配算法的研究[D];南京邮电大学;2015年

10 裴松年;基于机器学习的分类算法研究[D];中北大学;2016年



本文编号:2169669

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2169669.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3d406***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com