基因组序列k-mer频次分析及核小体结合模体的理论预测和验证
发布时间:2018-08-30 17:57
【摘要】:基因组序列k-mer出现的频次存在进化分离现象。基于这一现象,我们分析了酵母基因组核小体核心序列与核小体连接序列中k-mer (k≤8)使用频次的差异。分析了人类1号染色体基因间序列8-mer使用频次的三峰分布及在XY二核苷分类下的分布特征,给出了理论预测的核小体结合模体集合,并与核小体占据率实验结果进行了比较。具体内容如下。基于Brogaard等人在实验上给出的酵母基因组序列上单碱基精度的核小体定位标注,获得全部的核小体中心序列和核小体连接序列。分析了k-mer(k取4、5、6和8)在两类序列中相对使用频率(RF)的差异,发现当k≥6时,少数高频k-mer使用差异明显。引入两类序列k-mer相对使用频率比的对数(LRF)参数值,并按照该值增序的方式排列模体,结果显示模体长度越长两类序列的使用差异越明显,当k7以后差异分布逐渐稳定。按照核心序列8-mer相对使用频率增序的方式排列模体,发现在相对使用频率小于0.5的区域,两类序列的8-mer使用差异更加显著。分别计算了7个抽样点附近核心序列偏好的8-mer和连接序列偏好8-mer的G+C含量和二核苷含量。结果显示当8-mer相对频率逐步减小时,对应模体的G+C含量逐步增大,连接序列偏好GG和CC二核苷的使用,核心序列明显偏好CG和GC二核苷的使用。总之,除了少数极偏好的模体外,两类序列k-mer使用的差异多数出现在k-mer相对频率很低的模体上,这些模体具有较高的G+C含量。核小体结合模体集合的理论预测对于全面了解核小体的定位和染色质重塑以及DNA序列的结构和进化具有重要的意义。为了解释人类基因组序列8-mer相对模体数随频次的分布的三峰现象。将8-mer集合按照8-mer中包含CG二核苷的含量分类,发现三个8-mer子集(OCG,1CG和2CG)各自形成独立的单峰分布,而依照其它15类二核苷分类则没有此现象,总体8-mer的三个峰正是这三个CG 8-mer子集分布的叠加。分析了DNA序列中8-mer使用的这一独特的性质,结合对核小体结合序列的实验研究结论,我们提出了1CG模体集合就是核小体结合模体的理论猜想。为了验证我们的猜想,计算了1CG 8-mer集合中偏好和稀有的三核苷相对频率,分别构建了核小体特征参数Ktri(O)和Ktri(R),得到它们在1177个基因转录起始序列(TSS)上的分布,然后与实验给出的核小体占据率分布比较。线性拟合的统计结果表明,置信度大于95%的序列占到总数的89.2%,置信度大于99%的序列占到总数的81.6%。比较的结果印证了1CG模体集合就是核小体结合模体的理论猜想。
[Abstract]:The frequency of k-mer in genome sequence is separated by evolution. Based on this phenomenon, we analyzed the differences in the frequency of use of k-mer (k 鈮,
本文编号:2213843
[Abstract]:The frequency of k-mer in genome sequence is separated by evolution. Based on this phenomenon, we analyzed the differences in the frequency of use of k-mer (k 鈮,
本文编号:2213843
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/2213843.html