基因转录调控相关的生物信息学研究
发布时间:2022-01-20 08:37
转录调控是基因表达的关键步骤,是生物体正常生命活动必需的环节。转录调控机制受启动子、组蛋白翻译后修饰等多种因素的影响,一旦这些因素缺失或发生突变,会导致严重的人类疾病。高分辨率质谱分析等实验方法耗时、费力,为此,本文从数据不平衡处理的角度,围绕启动子和组蛋白翻译后修饰位点,基于机器学习分类算法开发出高效率、高精度的预测模型,从而缩短实验工作量。主要成果如下:(1)针对已有模型识别具体类型启动子精确性较低的问题,本文提出了多层预测模型MULTiPly。本模型利用K-tuple核苷酸组成,基于二核苷酸的自相关组成提取样本序列的局部信息,采用双边贝叶斯和K近邻特征编码方法提取全局信息,并应用F-score和增量特征选择方法构建最优特征组合以进一步提升模型的分类准确率。此外,为了处理不同类型的启动子样本数极度不平衡的问题,本文在第二层预测模型中开发了五个子分类器来逐一确定启动子的类型。五折交叉验证和独立测试的结果表明,本文构建的预测模型MULTiPly对启动子及其具体类型的识别效果显著。(2)赖氨酸甲酰化是一种可逆的蛋白质翻译后修饰,涉及很多重要的生物学过程。本文首次将最远距离欠采样(Most...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图2.1?MULTiPly的总体框架图??Fig.?2,1?The?o?
?基因转录调控相关的生物信息学研究???非C724启动子类。这个过程一直进行到第五个子分类器,子集^(CT28;)被视为正样本集和??子集被视为负样本集。后续的实验结果表明,上述基于五个子分类器的方法不??仅可以解决数据不平衡问题,而且可以准确地预测所识别的启动子属于六种类型中的哪??一种。该多层预测器的流程图如图2.2所示。??The?first?layer??I??S?qu?no??o〇(fln〇???面??|?關?圔?Non一^?‘????I?BPB?i?^?Output?Norvpromotf?1???g^i-ttUMcgconto?—?DNC?1?■■丨■丨??I??匕?-??丨??;^?H?i??I?The?seconder?一一—一??*??Output:?pronwlar?I??t?|??胃?SubdaMifler-S?s?qu?oai?coding?春?I??■?BPe?Sequence?coding?SubdMsift?r?2??I?^?fWH?^?I??Oitput?o^promol^f?ONC?;?I??oro-promofr?DAC?KNN?Output?I??I?f?〇NC??I?I?1??■?▼?Subda??ifi*f*3??I?Sequence?cod丨n〇?Sequence?codinfl??_?^?KNN?▲?8,98?.齡??I?BPR?KNN?吟?■??Output:?o3"?promoter?Output?aa?promoter?.??I?I??图2.2
amples? ̄ ̄h??_?_?4??Webserver?develoDment?Model?construction?and?Safe-Level-SMOTE??weoserver?aeveiopment?evaluation?oversampling?algorithm??,?Model?1?bPB??_?Pardmetor*"?〇?〇??▼_?M〇del2?opumoabon?.?KNN??//?iS?^?V??[u71?-?XH|??图3.1?Formator的总体框架图??Fig.?3.1?The?overall?framework?of?the?Fonnator??3.2.?2特征提取方法??BPB特征提取算法己被广泛应用于预测蛋白质S-亚硝基化位点[51]、甲基化位??点[26]等。如前面2.2.2节所述的那样,本章也采用了?BPB来构建预测模型。由于??每条序列中心氨基酸总是赖氨酸(K),研究时不需要考虑这个中心位置,且序列??长度为21,故BPB特征向量的总维数为40。??K近邻(KNN)?KNN打分策略通过从正、负训练数据集的相似序列中提取??特征,从而捕获甲酰化位点周围的局部序列相似性[28]?‘。对于两条局部序列Ag,??它们之间的距离定义为:??-22?-??
【参考文献】:
期刊论文
[1]生物信息学在基因转录调控研究中的应用[J]. 刘天婵,余应年. 中国病理生理杂志. 2004(04)
博士论文
[1]组蛋白修饰和组蛋白变异体在转录调控中的作用机制研究[D]. 李霞.中国科学院北京基因组研究所 2014
本文编号:3598512
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图2.1?MULTiPly的总体框架图??Fig.?2,1?The?o?
?基因转录调控相关的生物信息学研究???非C724启动子类。这个过程一直进行到第五个子分类器,子集^(CT28;)被视为正样本集和??子集被视为负样本集。后续的实验结果表明,上述基于五个子分类器的方法不??仅可以解决数据不平衡问题,而且可以准确地预测所识别的启动子属于六种类型中的哪??一种。该多层预测器的流程图如图2.2所示。??The?first?layer??I??S?qu?no??o〇(fln〇???面??|?關?圔?Non一^?‘????I?BPB?i?^?Output?Norvpromotf?1???g^i-ttUMcgconto?—?DNC?1?■■丨■丨??I??匕?-??丨??;^?H?i??I?The?seconder?一一—一??*??Output:?pronwlar?I??t?|??胃?SubdaMifler-S?s?qu?oai?coding?春?I??■?BPe?Sequence?coding?SubdMsift?r?2??I?^?fWH?^?I??Oitput?o^promol^f?ONC?;?I??oro-promofr?DAC?KNN?Output?I??I?f?〇NC??I?I?1??■?▼?Subda??ifi*f*3??I?Sequence?cod丨n〇?Sequence?codinfl??_?^?KNN?▲?8,98?.齡??I?BPR?KNN?吟?■??Output:?o3"?promoter?Output?aa?promoter?.??I?I??图2.2
amples? ̄ ̄h??_?_?4??Webserver?develoDment?Model?construction?and?Safe-Level-SMOTE??weoserver?aeveiopment?evaluation?oversampling?algorithm??,?Model?1?bPB??_?Pardmetor*"?〇?〇??▼_?M〇del2?opumoabon?.?KNN??//?iS?^?V??[u71?-?XH|??图3.1?Formator的总体框架图??Fig.?3.1?The?overall?framework?of?the?Fonnator??3.2.?2特征提取方法??BPB特征提取算法己被广泛应用于预测蛋白质S-亚硝基化位点[51]、甲基化位??点[26]等。如前面2.2.2节所述的那样,本章也采用了?BPB来构建预测模型。由于??每条序列中心氨基酸总是赖氨酸(K),研究时不需要考虑这个中心位置,且序列??长度为21,故BPB特征向量的总维数为40。??K近邻(KNN)?KNN打分策略通过从正、负训练数据集的相似序列中提取??特征,从而捕获甲酰化位点周围的局部序列相似性[28]?‘。对于两条局部序列Ag,??它们之间的距离定义为:??-22?-??
【参考文献】:
期刊论文
[1]生物信息学在基因转录调控研究中的应用[J]. 刘天婵,余应年. 中国病理生理杂志. 2004(04)
博士论文
[1]组蛋白修饰和组蛋白变异体在转录调控中的作用机制研究[D]. 李霞.中国科学院北京基因组研究所 2014
本文编号:3598512
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3598512.html
最近更新
教材专著