基于序列信息对人类DNaseⅠ超敏位点进行预测

发布时间:2024-06-08 04:54
  在遗传学中,超敏位点是一个相对较短的染色质区域,它可以在所有的活性基因上发现。DNaseⅠ超敏位点(DHSs)是失去其高级结构的特殊染色体区域,可被DNaseⅠ酶识别,结合和切割。因此,这些DNA区域变得暴露,更容易被酶接触,从而发挥其生物学作用。DNA序列中DHSs的研究对于理解转录调控机制和定位一些顺式调控元件(如启动子,增强子,绝缘子,沉默子和基因座控制区等)具有重要意义。因此,识别DHSs成为了从非编码序列中发现功能性DNA元素的有效途径。尽管后基因组时代已提出了许多实验方法来识别DHSs,但这些实验方法需要大量实验人员的辛勤劳动,以及需要耗费大量的实验原材料、实验器材和实验时间。与此同时,这些实验方法的大量涌现也为后续的研究提供了宝贵的实验数据。因此,开发用于预测DHSs序列的计算方法既有重要意义,又是推进科学发展不可或缺的一步。在本文的研究中,我们提出了一种基于DHSs序列信息的预测分类器模型来识别人类DHSs。研究采用的基准数据集是Noble课题组通过可靠的实验方法测序出来的,共包含1017条样本序列,大小均在240bp左右,并去除了序列冗余。我们的模型使用了k-mer、...

【文章页数】:52 页

【学位级别】:硕士

【部分图文】:

图2-1k-mer算法获取序列示意图

图2-1k-mer算法获取序列示意图

第二章数据集与特征7图2-1k-mer算法获取序列示意图2.2.2理化性质相关性k-mer仅仅只考虑了短程相关信息,因此,我们加入了理化性质的相关性,以代表寡核苷酸之间的远程相互作用,其表达式如下:Dphysicochemical=Λ(5)其中u可以用如下等式表示:ΛΛΛΛΛ(6....


图4-1每个k值构建的模型基于SVM的最终准确率结果

图4-1每个k值构建的模型基于SVM的最终准确率结果

电子科技大学硕士学位论文20第四章结果分析与讨论DNaseI超敏位点的识别是鉴定脊椎动物的顺式调控序列的标准方法,它促进了发现位于核心启动子之外的绝大多数已验证的人类顺式调控元件。尽管最近已发表了好几个用于DNaseI超敏位点序列大规模定位的新型分子方法,但人类DNaseI超敏位....


图4-26种二核苷酸理化性质的不同λ值在基于SVM的模型中的最终准确率

图4-26种二核苷酸理化性质的不同λ值在基于SVM的模型中的最终准确率

第四章结果分析与讨论21从结果中可以看到k值取2和5时模型的训练结果都表现出了不错的表现。通常,对于二型PseKNC公式中的一个特征向量,只会选择一个k值来训练模型,而在其他k值特征向量中可能会丢失一些重要的特征信息。因此,我们选用范围为2到5的四个k值作为特征集,以发现更多有效....


图4-4k=2,g=2时根据mRMR特征筛选得到的结果,取前108个特征的结果

图4-4k=2,g=2时根据mRMR特征筛选得到的结果,取前108个特征的结果

电子科技大学硕士学位论文24图4-3二核苷酸和三核苷酸的G-gap特征提取算法的最终准确率结果从图4-3的结果中可以看出三核苷酸在整体水平上明显表现得不如二核苷酸,并且由于基准数据集中序列长度比较偏短,将更高维度的核苷酸联体作为特征向量的意义不大,因此我们不再尝试四核苷酸及以上更....



本文编号:3991485

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3991485.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c8489***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com