转录因子CTCF活性结合位点的预测
发布时间:2020-11-17 10:52
CCCTC结合因子(CTCF)是广泛存在于真核生物中的多锌脂蛋白,参与了转录、印迹和染色质长程相互作用等多种生物学过程,在不同基因组背景下发挥不同的功能。众所周知,CTCF可以同时充当转录抑制因子和激活因子。另一方面,各种研究发现CTCF是主要的肿瘤抑制基因,破坏特定基因位点的CTCF结合可能会导致癌症相关基因的异常表达,从而增加患乳腺癌等癌症的风险。全基因组的ChIP-seq分析揭示了成千上万个CTCF的结合位点,表明其在基因组中的广泛调节功能。实际上,CTCF的结合受到多种因素的影响,包括DNA序列、其他转录因子的结合、染色质可及性,DNA甲基化和组蛋白修饰等等。ENCODE项目提供了大量的全基因组表观修饰数据,已被证明是用于基因调控研究的宝贵数据资源,我们后续用于分析和预测的数据都来源于ENCODE。首先,利用ENCODE数据库中82个细胞系转录因子CTCF的峰值数据,构建了CTCF活性结合位点(正集:876个位点,称为CABS)和CTCF非活性结合位点(负集:231130个位点,CIBS)数据集。然后,从ENCODE中提取了各种表观遗传信号,包括DNase-seq、RAD21、SMC3、H3K9ac、H3K27me3、H3K9me3、H3K4me3、H3k4me2和H4k20me1。最后,基于转录起始位点邻近表观信号特征,利用支持向量机(SVM,Jackknife验证)和随机森林(RF,5倍交叉验证)预测了GM12878中转录因子CTCF的活性结合位点。结果表明,九个特征的预测准确度分别为93.87%和94.46%,100次平均预测准确度为94.78%和95.40%。与此同时,仅使用DNase-seq、RAD21和SMC3的特征就可以实现与九种特征可比拟的预测准确度,说明染色质可及性DNase-seq数据、RAD21和SMC3的结合信息,对活性CTCF结合位点的预测具有较强的预测能力,组蛋白修饰可提供适度的预测能力。进一步,基于ENCODE构建了乳腺癌MCF-7细胞系特异的CTCF活性结合位点(30859个位点,M-S group)数据集与乳腺正常HMEC细胞系特异的CTCF活性结合位点(13171个位点,H-S group)数据集。根据第一部分的研究结果,利用三种转录因子(CTCF、RAD21、SMC3)的结合模体,DNase-seq以及DNA甲基化信号在CTCF峰400bp区域内的分布信息,对乳腺癌MCF-7细胞系特异的CTCF活性结合位点进行预测,SVM与RF的预测准确度分别是83.09%,84.19%。结果表明,MCF-7细胞系中活性CTCF结合位点的预测水平超过80%,表明结合染色质可及性数据、DNA甲基化对CTCF的结合具有较强的调控作用,同时具有强关联的转录因子RAD21和SMC3对CTCF的结合发挥了一定的影响,这些研究有助于进一步分析和预测DNA与其他转录因子之间的相互作用。
【学位单位】:内蒙古大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:Q75
【部分图文】:
内蒙古大学硕士学位论文9根据ENCODE提供的数据,表2.2统计了转录因子RAD21、SMC3所在的细胞系。基于从ENCODE下载的RAD21、SMC3的narrowpeak数据,利用MEME-ChIP用于模体搜索,同时从JASPAR(htp:/jaspar.genereg.net/matrix/MA0139.1/)下载了转录因子CTCF19bp的结合模体(logo图见图2.1,位置权重矩阵见表2.3)。图2.1转录因子CTCF模体的logo图Fig2.1MotiflogomapoftranscriptionfactorCTCF表2.2构建RAD21与SMC3模体的细胞系Table2.2ThecelllinesusedtobuildRAD21andSMC3motifs编号细胞系名称描述RAD21SMC31GM12878B-淋巴细胞,淋巴母细胞++2H1-hESC胚胎干细胞+-3K562白血病++4A549肺癌组织的上皮细胞系+-5HeLa-S3宫颈癌++6HepG2心脏病++7IMR90胎儿肺成纤维细胞+-8SK-N-SH神经母细胞瘤,SK-N-SH细胞系是由4岁个体的神经母细胞瘤建立。++9SK-N-SH_RA神经母细胞瘤细胞系+-备注:“+”表示存在,“-”号表示不存在该转录因子的的narrowpeak数据。Note:"+"Indicatesthepresence,and"-"indicatestheabsenceofnarrowpeakdataforthetranscriptionfactor.
内蒙古大学硕士学位论文12(B)图3.1CTCF活性结合与CTCF非活性结合的数据集的构建方法(A)与流程(B)Fig3.1Theconstructionmethods(A)andprocess(B)ofdatasetsofactivebindingsites(CABS)andinactivebindingsites(CIBS)oftranscriptionfactorCTCF其次,基于上面得到的无重复位点的两类数据,将二者所有同染色体的位点再次进行比较(参照图3.1A),若比较后的两个位点不相交(参照图3.1A的2c),则分别记作二者特有的位点(specificsite);反之(参照图3.1A的2a或者2b),随机保留一个位点记作二者共有的位点(commonsite)。筛选出43699个相交的narrowpeak作为二者共有的结合位点、GM12878细胞系CTCF结合的特有位点904个、其它81个细胞系CTCF结合的特有位点273321个。最后,剔除染色体X与Y的narrowpeak位点,得到了GM12878细胞系的CTCF活性结合的位点(CABS,876个位点,正集)数据集和CTCF非活性结合的位点(CIBS,231130个位点,负集)数据集。图3.1B为CABS数据集与CIBS数据集的构建流程图。
内蒙古大学硕士学位论文133.2基于信号特征提取与数据归一化对CTCF的第i个结合位点,统计任一种表观修饰读段的个数(read数),记为N,利用公式3.1,根据第i个CTCF结合位点的片段长度len和peak位点的平均长度L(CABS数据集与CIBS数据集的L分别是309bp、166bp)进行归一化处理,得到第i个结合位点的特征值N′并用于预测。L*lenNNiii′=3.3预测方法3.3.1随机森林方法随机森林[28](RF,RandomForest)是一种由多棵决策树组合、基于Bagging集成学习方法的联合预测模型,特点是能够避免单一模型的缺陷,消除某一组特征参数自身所带来的影响。图3.2随机森林工作流程[29]Fig3.2WorkflowofRandomforest[29](3.1)
【参考文献】
本文编号:2887419
【学位单位】:内蒙古大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:Q75
【部分图文】:
内蒙古大学硕士学位论文9根据ENCODE提供的数据,表2.2统计了转录因子RAD21、SMC3所在的细胞系。基于从ENCODE下载的RAD21、SMC3的narrowpeak数据,利用MEME-ChIP用于模体搜索,同时从JASPAR(htp:/jaspar.genereg.net/matrix/MA0139.1/)下载了转录因子CTCF19bp的结合模体(logo图见图2.1,位置权重矩阵见表2.3)。图2.1转录因子CTCF模体的logo图Fig2.1MotiflogomapoftranscriptionfactorCTCF表2.2构建RAD21与SMC3模体的细胞系Table2.2ThecelllinesusedtobuildRAD21andSMC3motifs编号细胞系名称描述RAD21SMC31GM12878B-淋巴细胞,淋巴母细胞++2H1-hESC胚胎干细胞+-3K562白血病++4A549肺癌组织的上皮细胞系+-5HeLa-S3宫颈癌++6HepG2心脏病++7IMR90胎儿肺成纤维细胞+-8SK-N-SH神经母细胞瘤,SK-N-SH细胞系是由4岁个体的神经母细胞瘤建立。++9SK-N-SH_RA神经母细胞瘤细胞系+-备注:“+”表示存在,“-”号表示不存在该转录因子的的narrowpeak数据。Note:"+"Indicatesthepresence,and"-"indicatestheabsenceofnarrowpeakdataforthetranscriptionfactor.
内蒙古大学硕士学位论文12(B)图3.1CTCF活性结合与CTCF非活性结合的数据集的构建方法(A)与流程(B)Fig3.1Theconstructionmethods(A)andprocess(B)ofdatasetsofactivebindingsites(CABS)andinactivebindingsites(CIBS)oftranscriptionfactorCTCF其次,基于上面得到的无重复位点的两类数据,将二者所有同染色体的位点再次进行比较(参照图3.1A),若比较后的两个位点不相交(参照图3.1A的2c),则分别记作二者特有的位点(specificsite);反之(参照图3.1A的2a或者2b),随机保留一个位点记作二者共有的位点(commonsite)。筛选出43699个相交的narrowpeak作为二者共有的结合位点、GM12878细胞系CTCF结合的特有位点904个、其它81个细胞系CTCF结合的特有位点273321个。最后,剔除染色体X与Y的narrowpeak位点,得到了GM12878细胞系的CTCF活性结合的位点(CABS,876个位点,正集)数据集和CTCF非活性结合的位点(CIBS,231130个位点,负集)数据集。图3.1B为CABS数据集与CIBS数据集的构建流程图。
内蒙古大学硕士学位论文133.2基于信号特征提取与数据归一化对CTCF的第i个结合位点,统计任一种表观修饰读段的个数(read数),记为N,利用公式3.1,根据第i个CTCF结合位点的片段长度len和peak位点的平均长度L(CABS数据集与CIBS数据集的L分别是309bp、166bp)进行归一化处理,得到第i个结合位点的特征值N′并用于预测。L*lenNNiii′=3.3预测方法3.3.1随机森林方法随机森林[28](RF,RandomForest)是一种由多棵决策树组合、基于Bagging集成学习方法的联合预测模型,特点是能够避免单一模型的缺陷,消除某一组特征参数自身所带来的影响。图3.2随机森林工作流程[29]Fig3.2WorkflowofRandomforest[29](3.1)
【参考文献】
相关期刊论文 前3条
1 王海;张倩;方向东;;绝缘子调控基因的表达[J];中国生物化学与分子生物学报;2011年06期
2 高智红;张利绒;罗辽复;;应用离散增量方法识别人类MicroRNAs前体序列[J];内蒙古大学学报(自然科学版);2010年06期
3 李凤敏;李前忠;林昊;;基于离散增量和协变判别函数识别蛋白质亚核定位[J];内蒙古大学学报(自然科学版);2008年01期
本文编号:2887419
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2887419.html