当前位置:主页 > 理工论文 > 生物学论文 >

基于机器学习的蛋白质琥珀酰化预测的软件开发

发布时间:2021-08-02 21:04
  赖氨酸琥珀酰化已被证实普遍存在于原核生物、真核生物中,特别是在中心代谢和中间代谢的很多代谢酶都存在。蛋白质赖氨酸位点的琥珀酰化广泛参与细胞分化、细胞代谢等重要生理活动,在中心代谢途径、疾病等重要生理病理活动中的有重要的调控作用,这代表着其与许多疾病发生有关。所以,帮助从事相关工作人员去确定未验证的蛋白质序列中赖氨酸是否拥有琥珀酰化位点,这对于生理特性的研究和相关药物的研发中都是十分关键的。通过做实验确定蛋白质琥珀酰化修饰位点,往往需要耗费相关人员大量的精力、时间以及实验资源,大大限制了该领域研究的速度。本着解决这个难题的目的,我们开发了一个电脑软件平台来作为蛋白质琥珀酰化的预测工具。本文的主要工作包括:(1)完成十分关键的一步提取出样本中的特征。样本氨基酸序列每个氨基是字母的形式,本文通过把每个样本当做一个文本,把氨基酸字母当做字词,使用TF-IDF技术将字母信息转换为数字信息来完成特征构建得到模型特征。(2)由于正负样本的比例极不平衡,所以在选择算法模型训练之前必须解决。在参考了常见的解决办法以及数据集本身的特点,并经过实验性尝试后,我们采用SMOTE算法对数据集进行处理使正负样本集... 

【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校

【文章页数】:50 页

【学位级别】:硕士

【部分图文】:

基于机器学习的蛋白质琥珀酰化预测的软件开发


机器学习和模式分类

片段,样本,琥珀酰化


3.1 数据收集、处理首先我们从 UniProt 蛋白质数据库下载的数据如图 3.1 箭头上方所示,由相关知识可知,只有中心位点为 K 的肽链才有具有琥珀酰化位点的机会。本文把蛋白质中那些经历过泛素化修饰的已经注释好的赖氨酸残基记为琥珀酰化修饰位点。在蛋白质中,那些未注释的赖氨酸残基作为非琥珀酰化的修饰位点。在本文中,我们使用一个固定长度来提取琥珀酰化及非琥珀酰化的肽段(如图 3-1),把琥珀酰化修饰位点或非琥珀酰化修饰位点即残基 K 做为中心,提取出左右两侧包括 30 个位点作为非琥珀酰化修饰片段(如图 3-1 中的红色‘K’),在左侧和右侧提取 30 个位点作为非琥珀酰化的修饰片段(如图 3-1 中的蓝色'K')。将一个或多个字符'*'添加到少于 30 个左右两侧的肽段中,作为假氨基酸。 此时,将琥珀酰化的修饰片段用作阳性样品,并将非琥珀酰化的修饰片段用作阴性品。

曲线,因变量,自变量,问题


科 技 大 学 硕 士 学 位 论 文代表那个人没有患糖尿病,Y=1 代表那个人患有糖尿病0-1)分布的变量,其不可能采用 h 函数对应的连续的 或 1)。性回归往往用于处理因变量是连续变量的这类问题,归就不可能再用来解决这个问题了,只能改换成逻辑ogistic Regression)是将因变量作为分类变量处理的回题,这些问题实际上属于分类方法。量问题的概率与自变量之间的关系通常是 S 形曲线, 函数二分类问题的概率与自变量之间的关系图形往往

【参考文献】:
期刊论文
[1]浅谈不同编程语言对计算机软件开发的影响[J]. 朱睿思.  电脑知识与技术. 2018(22)
[2]基于底层特征建模的行为识别算法优化[J]. 刘云,杨建滨,王传旭.  科学技术与工程. 2018(21)
[3]Jupyter Notebook在Python教学中的应用探索[J]. 薛煜阳.  信息技术与信息化. 2018(07)
[4]基于Na?ve Bayes和TF-IDF的真假新闻分类[J]. 蔡扬,付小斌.  电脑知识与技术. 2018(04)
[5]不平衡数据集的分类方法研究[J]. 王和勇,樊泓坤,姚正安,李成安.  计算机应用研究. 2008(05)
[6]机器学习在生物信息学中的应用[J]. 张晓龙,杨艳霞.  武汉科技大学学报(自然科学版). 2005(02)
[7]高通量筛选技术及其应用[J]. 韩闯,杨盛昌.  生物技术通报. 2005(02)
[8]用离散量方法预测细胞凋亡蛋白的亚细胞位置[J]. 陈颖丽,李前忠.  内蒙古大学学报(自然科学版). 2004(04)

博士论文
[1]基于序列信息的蛋白质功能位点预测的算法开发[D]. 陈震.中国农业大学 2014
[2]蛋白质翻译后修饰及其相互作用预测方法研究[D]. 赵晓威.东北师范大学 2013
[3]机器学习及数据挖掘在生物信息学中的应用研究[D]. 杜伟.吉林大学 2011

硕士论文
[1]基于操作温度控制的工业建筑围护结构防热性能优化研究[D]. 李俊锋.西安建筑科技大学 2018
[2]基于Web的线上社群管理系统的设计与实现[D]. 陈孝义.北京邮电大学 2018
[3]基于GBM算法预测蛋白质琥珀酰化位点的研究与实现[D]. 吴润林.辽宁大学 2017
[4]蛋白质热稳定性分类预测系统的设计与实现[D]. 张吉宽.辽宁大学 2016
[5]基于本体的个性化Web信息检索方法研究[D]. 张楠.东北大学 2015
[6]机器学习方法在生物信息学中的应用[D]. 杨闫.渤海大学 2014
[7]基于序列的人类蛋白质泛素化修饰位点计算分析[D]. 何冰.南京航空航天大学 2013



本文编号:3318272

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3318272.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f4c9b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com