基于堆栈融合模型的非编码RNA识别方法研究
发布时间:2025-02-07 18:52
随着新一代高通量测序技术的不断完善和大规模比较测序的进行,产生了大量可用的转录组数据,区分编码与非编码核糖核酸(Ribonucleic Acid,RNA)成为转录数据分析中的核心任务。非编码RNA识别领域有两种趋势,其一是满足大量非模式生物RNA的识别需求,这就需要物种中性的识别工具;其二是设计特定的识别工具满足特定物种的识别需求。针对这些问题,本文设计了一种非编码RNA识别框架。本文设计的非编码RNA识别框架由两个模块组成,特征提取模块从脱氧核糖核酸(Deoxyribonucleic acid,DNA)、RNA、肽三个层次上对转录本序列进行特征提取,DNA和RNA层次上总结了之前研究中的17个有效特征,肽层次上创造性地选取了蛋白质的理化特征和二级结构特征共8种。分类器模块设计了基于堆栈集成策略的两层分类器,将机器学习模型随机森林、极限梯度提升模型、轻量梯度提升机组合并应用于非编码RNA识别领域。本文使用Python语言实现了非编码RNA识别框架,根据两种不同的需求实现了跨物种非编码RNA识别模型和植物非编码RNA识别模型。其中跨物种非编码RNA识别模型是一种物种中性的工具,在由人类、小...
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
本文编号:4031144
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图2-1非编码RNA序列的综合视图
-15-图2-1非编码RNA序列的综合视图模式生物数据库dictyBase是盘基网柄菌(Dictyosteliumdiscoideum)的模式生物数据库[61]。FlyBase是果蝇基因和基因组的数据库[62]。MGI是实验室老鼠的国际数据库[63]。Pom....
图3-2阅读框示例
哈尔滨工业大学工学硕士学位论文=()()+1∈{1,2,3}=....
图3-3开放阅读框示例
哈尔滨工业大学工学硕士学位论文特征提取特征也可以称为开放阅读框(ORF)的特征开放阅读框是指给定的阅读框中,不包含终中可能作为蛋白质编码序列的部分。与阅方式,因此可能存在多个开放阅读框。如UAA为终止密码子,据此认为第3个阅序列UCUAAAGGUCCA中只有两个开放
图3-5组合学习的三个基本原因
哈尔滨工业大学工学硕士学位论文3.4分类器设计在分类器的设计上,本文采用了基于Stacking策略的两层分类器。第一层使用了机器学习模型RF、XGBoost、LightGBM,第二层使用LR作为元分类器组合第一层的基学习器。Stacking策略是一种集成方法,通过组....
本文编号:4031144
本文链接:https://www.wllwen.com/projectlw/swxlw/4031144.html