当前位置:主页 > 管理论文 > 领导决策论文 >

iDHS-LR:超敏感位点的识别

发布时间:2021-11-26 13:04
  DNaseⅠ超敏感位点(DHSs)为动物和植物细胞中染色质的状态提供了重要信息,准确地识别DHSs是一种有效的发现启动子、增强子、抑制子和边界元件等调控因子的富集区域的方法。这些具有功能的顺式作用元件控制着生物体基因表达的强度和特异性,会对人类疾病等相关的研究产生重大的影响。识别DHSs将有助于科学家们更好的探索DNA的转录调控机制,提高我们对染色质开放性区域的认识,加深人们对人类疾病,基因的进化以及衰老等方面的认知。得益于高通量测序技术的发展,一些新的生物技术被应用于检测DHSs,但它们不仅需要耗费大量的时间与精力实现完整的测序,而且花费较大,这将阻碍后续实验的进展。因此有必要开发识别此类位点快速、有效的计算方法。基于DNA序列信息和机器学习模型,本文提出了一种基于逻辑回归的预测DHSs的方法,称为i DHS-LR。该方法从包含双核苷酸空间自相关、K元核苷酸组成、三核苷酸理化性质TPCP的特征集合中筛选出最优特征子集,然后使用机器学习建立预测模型,经过交叉验证得到ROC曲线下面积(AUC)达到了0.915,精确度(Acc)为88.79%。结果表明该方法优于其他现存方法。 

【文章来源】:湘潭大学湖南省

【文章页数】:38 页

【学位级别】:硕士

【部分图文】:

iDHS-LR:超敏感位点的识别


决策树基本算法决策树经典算法有三种,分别是ID3,C4.5和Breiman等人提出的分类与回归树(CART)

数据分布,几率,函数,对数


172.3分类器逻辑回归算法(logisticsregression)是目前最流行的分类算法之一,它通过模型返回的概率值来判断某种情况发生的可能性大小,也是应用最广的模型。这种方法有很多优点,它无需事先假设数据分布,可以提供点估计和置信界区间,用于估计事件发生与未发生的比率的自然对数,给定一组由协变量度量的条件,它也可以处理各种类型的数据,在流行病学,信号处理等应用研究领域具有重要地位。该模型被设计用来描述一个概率,概率总是0到1之间的某个数字,即我们不仅可以得到分类结果,还可以知道对应的概率,这对许多需要用到概率辅助决策的任务很有用[34]。逻辑回归由广义线性回归扩展而来,线性回归模型为:xxxxxzTnn...)(22110,(2.28)其中,n,...,,21为回归方程的系数。在二分类问题中,输出数据y10},{,由于上述线性模型产生的预测值为实值,所以需要将实值转化为0/1,利用海维赛德阶跃函数:0102100zzzy,,/,.(2.29)即若预测值大于0,则样本为正例,反之样本为反例。但海维赛德阶跃函数不连续,所以用连续的对数几率函数代替:zey11.(2.30)这实际上是一种Sigmoid函数,它将z值转化为一个接近为0或者1的y值,如图2.5所示:图2.5对数几率函数将式(2.30)代入式(2.28)得到:

情况,交叉验证,数据集,核苷酸


213.3交叉验证在统计预测中,通常有多种方法都可以用来评价模型的预测性能。其中,jackknife检验是最严谨的,但是它非常耗费时间,所以为了节约时间同时保持较好的效果,本文选择了10折交叉验证。在10折交叉验证中,首先将样本集随机的分为10份:=56.(3.4)每一个子集中都包含与原始数据集同样的正负样本比例,十个子数据集中的每一个都被逐个挑选出来作为测试集,同时剩下的九个子数据集作为模型的训练集。重复以上过程10次,以十次的平均值作为最终结果。3.4结果与分析(1)数据集本文按照第二章中介绍的DNaseⅠ超敏感位点识别方法提取序列的相关特征,现将具体情况说明如下:a)K元核苷酸组成图3.1列出了当k=1,2,3,4,5时,DHSs和非DHSs中K元核苷酸组成情况,且根据DHSs和非DHSs的成分绝对差异进行排序:图3.1(a)MNC和DNC在DHSs和非DHSs的情况

【参考文献】:
期刊论文
[1]基于决策树的作战实体行为规则建模[J]. 尹星,孙鹏,韩冰.  指挥控制与仿真. 2020(01)
[2]基于SVDD集成的水下目标识别算法研究[J]. 杜方键,张永峰,张志正,郭小飞,田明.  电声技术. 2019(08)
[3]植物基因组DNase Ⅰ超敏感位点的研究进展[J]. 张韬,杨足君.  遗传. 2013(07)

博士论文
[1]在高通量测序背景下对于识别编码蛋白RNA和长非编码RNA的研究[D]. 孙亮.吉林大学 2013

硕士论文
[1]电力变压器多参数信息融合故障诊断技术研究[D]. 王享.西安工程大学 2019
[2]量化投资选股模型的研究与应用[D]. 李洋.中国地质大学(北京) 2018
[3]通用飞机飞行训练品质智能评估系统[D]. 成肖科.沈阳航空航天大学 2018
[4]大脑发育相关基因调控区DNA酶Ⅰ超敏感位点的正选择分析[D]. 王伟.华南理工大学 2017
[5]基于序列信息的DNA元件与重组热点识别[D]. 龙任.哈尔滨工业大学 2017
[6]灵长类基因组MHC区域DNA酶Ⅰ超敏感位点研究[D]. 金亚彬.华南理工大学 2016



本文编号:3520203

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3520203.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户17bc4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com