蛋白质热稳定性分类预测系统的设计与实现
发布时间:2017-08-03 09:36
本文关键词:蛋白质热稳定性分类预测系统的设计与实现
更多相关文章: 蛋白质热稳定性 数据分类预测 特征选择 支持向量机 Adaboost
【摘要】:蛋白质是生命活动的主要物质承担者和重要的生物催化剂,在工业生产中有着较大的应用潜力和良好的发展前景。然而,大部分蛋白质都是常温蛋白质,不能满足工业生产中热处理的要求,其较低的热稳定性严重制约了它们在工业生产中的应用。通过模式识别方法研究蛋白质热稳定性机制进而提升其热稳定性一直是计算生物学和蛋白质工程研究领域中的一个重要方向。开发一个能有效预测蛋白质热稳定性分类的系统将有助于研究者探索蛋白质的热稳定性机制。本系统的主要功能是对蛋白质序列的热稳定性分类进行预测并通过分类模型分析出与热稳定性有重要关联的特征。系统提供了大量蛋白质序列作为训练分类模型的数据集,为用户提供了序列特征计算、特征选择、分类模型建立、蛋白质热稳定性预测、预测结果分析和数据文件导出等功能。用户通过系统得出的结果可以为改造蛋白质序列结构,提升蛋白质热稳定性的实验提供理论支持。系统在MyEclipse平台的基础上,使用Java语言开发,运用Spring MVC框架进行系统架构,采用MySQL对数据进行存储,实现了数据准备模块、数据分类预测模块、预测结果分析模块和系统管理模块。在数据准备模块中,系统根据蛋白质序列计算430维序列特征并使用信息增益、信息增益率和Relief特征选择算法对特征集进行降维。在数据分类预测模块中,系统使用Adaboost算法建立组合分类模型。其中,组合分类模型中的基分类器由支持向量机算法训练得出。经过系统测试,系统能够较为精确的预测未知热稳定性分类的蛋白质序列并能分析出与蛋白质热稳定性有重要关联的特征,在功能和性能上都满足用户的需求,达到了预期的设计效果。
【关键词】:蛋白质热稳定性 数据分类预测 特征选择 支持向量机 Adaboost
【学位授予单位】:辽宁大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:O629.73
【目录】:
- 摘要4-5
- ABSTRACT5-13
- 引言13-17
- 0.1 系统开发背景及意义13-14
- 0.2 研究现状14-15
- 0.3 主要研究内容及组织结构15-17
- 0.3.1 主要研究内容15
- 0.3.2 本文的组织结构15-17
- 第1章 相关技术介绍17-27
- 1.1 MySQL数据库17-18
- 1.2 Tomcat服务器18
- 1.3 Spring MVC框架18-19
- 1.4 特征选择19-22
- 1.4.1 信息增益19-20
- 1.4.2 信息增益率20-21
- 1.4.3 Relief21-22
- 1.5 支持向量机22-25
- 1.5.1 最优分类面22
- 1.5.2 线性可分22-23
- 1.5.3 非线性可分23-25
- 1.6 Adaboost25-26
- 1.7 本章小结26-27
- 第2章 系统需求分析27-39
- 2.1 功能性需求27-37
- 2.1.1 数据字典28-30
- 2.1.2 数据准备30-31
- 2.1.3 数据分类预测31-33
- 2.1.4 预测结果分析33-36
- 2.1.5 系统管理36-37
- 2.2 非功能性需求37-38
- 2.3 本章小结38-39
- 第3章 系统设计39-57
- 3.1 系统架构设计39-40
- 3.2 系统模块设计40-51
- 3.2.1 数据准备模块40-43
- 3.2.2 数据分类预测模块43-46
- 3.2.3 预测结果分析模块46-49
- 3.2.4 系统管理模块49-51
- 3.3 系统数据库设计51-56
- 3.3.1 数据关系设计51-52
- 3.3.2 数据表设计52-56
- 3.4 系统部署56
- 3.5 本章小结56-57
- 第4章 系统关键技术实现57-71
- 4.1 序列特征计算57-61
- 4.1.1 数据集构建57-58
- 4.1.2 序列特征计算58-61
- 4.2 特征选择的实现61-64
- 4.3 支持向量机模型的实现和数据不平衡问题的处理64-68
- 4.3.1 支持向量机分类模型的实现64-66
- 4.3.2 数据不平衡问题的处理66-67
- 4.3.3 支持向量机与其他模式识别算法的对比67-68
- 4.4 Adaboost组合分类器的实现68-70
- 4.5 本章小结70-71
- 第5章 系统测试71-77
- 5.1 测试原理及测试环境71-72
- 5.1.1 测试原理71-72
- 5.1.2 测试环境72
- 5.2 测试用例72-76
- 5.2.1 功能测试72-74
- 5.2.2 模型预测精度测试74-75
- 5.2.3 性能测试75-76
- 5.2.4 稳定性测试76
- 5.3 测试结果76
- 5.4 本章小结76-77
- 第6章 总结与展望77-79
- 6.1 总结77
- 6.2 展望77-79
- 致谢79-80
- 参考文献80-83
- 攻读学位期间发表的学术论文及参加科研情况83
【参考文献】
中国期刊全文数据库 前3条
1 汪洪桥;孙富春;蔡艳宁;陈宁;丁林阁;;多核学习方法[J];自动化学报;2010年08期
2 邹志文,朱金伟;数据挖掘算法研究与综述[J];计算机工程与设计;2005年09期
3 景涛,白成刚,胡庆培,蔡开元;构件软件的测试问题综述[J];计算机工程与应用;2002年24期
,本文编号:613690
本文链接:https://www.wllwen.com/kejilunwen/huaxue/613690.html
教材专著