转录因子CTCF活性结合位点的预测

发布时间：2020-11-17 10:52

　　 CCCTC结合因子(CTCF)是广泛存在于真核生物中的多锌脂蛋白,参与了转录、印迹和染色质长程相互作用等多种生物学过程,在不同基因组背景下发挥不同的功能。众所周知,CTCF可以同时充当转录抑制因子和激活因子。另一方面,各种研究发现CTCF是主要的肿瘤抑制基因,破坏特定基因位点的CTCF结合可能会导致癌症相关基因的异常表达,从而增加患乳腺癌等癌症的风险。全基因组的ChIP-seq分析揭示了成千上万个CTCF的结合位点,表明其在基因组中的广泛调节功能。实际上,CTCF的结合受到多种因素的影响,包括DNA序列、其他转录因子的结合、染色质可及性,DNA甲基化和组蛋白修饰等等。ENCODE项目提供了大量的全基因组表观修饰数据,已被证明是用于基因调控研究的宝贵数据资源,我们后续用于分析和预测的数据都来源于ENCODE。首先,利用ENCODE数据库中82个细胞系转录因子CTCF的峰值数据,构建了CTCF活性结合位点(正集:876个位点,称为CABS)和CTCF非活性结合位点(负集:231130个位点,CIBS)数据集。然后,从ENCODE中提取了各种表观遗传信号,包括DNase-seq、RAD21、SMC3、H3K9ac、H3K27me3、H3K9me3、H3K4me3、H3k4me2和H4k20me1。最后,基于转录起始位点邻近表观信号特征,利用支持向量机(SVM,Jackknife验证)和随机森林(RF,5倍交叉验证)预测了GM12878中转录因子CTCF的活性结合位点。结果表明,九个特征的预测准确度分别为93.87%和94.46%,100次平均预测准确度为94.78%和95.40%。与此同时,仅使用DNase-seq、RAD21和SMC3的特征就可以实现与九种特征可比拟的预测准确度,说明染色质可及性DNase-seq数据、RAD21和SMC3的结合信息,对活性CTCF结合位点的预测具有较强的预测能力,组蛋白修饰可提供适度的预测能力。进一步,基于ENCODE构建了乳腺癌MCF-7细胞系特异的CTCF活性结合位点(30859个位点,M-S group)数据集与乳腺正常HMEC细胞系特异的CTCF活性结合位点(13171个位点,H-S group)数据集。根据第一部分的研究结果,利用三种转录因子(CTCF、RAD21、SMC3)的结合模体,DNase-seq以及DNA甲基化信号在CTCF峰400bp区域内的分布信息,对乳腺癌MCF-7细胞系特异的CTCF活性结合位点进行预测,SVM与RF的预测准确度分别是83.09%,84.19%。结果表明,MCF-7细胞系中活性CTCF结合位点的预测水平超过80%,表明结合染色质可及性数据、DNA甲基化对CTCF的结合具有较强的调控作用,同时具有强关联的转录因子RAD21和SMC3对CTCF的结合发挥了一定的影响,这些研究有助于进一步分析和预测DNA与其他转录因子之间的相互作用。
【学位单位】：内蒙古大学
【学位级别】：硕士
【学位年份】：2020
【中图分类】：Q75
【部分图文】：

转录因子,细胞系,母细胞瘤

内蒙古大学硕士学位论文9根据ENCODE提供的数据，表2.2统计了转录因子RAD21、SMC3所在的细胞系。基于从ENCODE下载的RAD21、SMC3的narrowpeak数据，利用MEME-ChIP用于模体搜索，同时从JASPAR（htp:/jaspar.genereg.net/matrix/MA0139.1/）下载了转录因子CTCF19bp的结合模体（logo图见图2.1，位置权重矩阵见表2.3）。图2.1转录因子CTCF模体的logo图Fig2.1MotiflogomapoftranscriptionfactorCTCF表2.2构建RAD21与SMC3模体的细胞系Table2.2ThecelllinesusedtobuildRAD21andSMC3motifs编号细胞系名称描述RAD21SMC31GM12878B-淋巴细胞，淋巴母细胞++2H1-hESC胚胎干细胞+-3K562白血病++4A549肺癌组织的上皮细胞系+-5HeLa-S3宫颈癌++6HepG2心脏病++7IMR90胎儿肺成纤维细胞+-8SK-N-SH神经母细胞瘤，SK-N-SH细胞系是由4岁个体的神经母细胞瘤建立。++9SK-N-SH_RA神经母细胞瘤细胞系+-备注：“+”表示存在，“-”号表示不存在该转录因子的的narrowpeak数据。Note:"+"Indicatesthepresence,and"-"indicatestheabsenceofnarrowpeakdataforthetranscriptionfactor.

流程图,数据集,位点,流程

内蒙古大学硕士学位论文12（B）图3.1CTCF活性结合与CTCF非活性结合的数据集的构建方法（A）与流程（B）Fig3.1Theconstructionmethods（A）andprocess（B）ofdatasetsofactivebindingsites（CABS）andinactivebindingsites（CIBS）oftranscriptionfactorCTCF其次，基于上面得到的无重复位点的两类数据，将二者所有同染色体的位点再次进行比较（参照图3.1A），若比较后的两个位点不相交（参照图3.1A的2c），则分别记作二者特有的位点（specificsite）；反之（参照图3.1A的2a或者2b），随机保留一个位点记作二者共有的位点（commonsite）。筛选出43699个相交的narrowpeak作为二者共有的结合位点、GM12878细胞系CTCF结合的特有位点904个、其它81个细胞系CTCF结合的特有位点273321个。最后，剔除染色体X与Y的narrowpeak位点，得到了GM12878细胞系的CTCF活性结合的位点（CABS，876个位点，正集）数据集和CTCF非活性结合的位点（CIBS，231130个位点，负集）数据集。图3.1B为CABS数据集与CIBS数据集的构建流程图。

工作流程图,森林,工作流程,位点

内蒙古大学硕士学位论文133.2基于信号特征提取与数据归一化对CTCF的第i个结合位点，统计任一种表观修饰读段的个数（read数），记为N，利用公式3.1，根据第i个CTCF结合位点的片段长度len和peak位点的平均长度L（CABS数据集与CIBS数据集的L分别是309bp、166bp）进行归一化处理，得到第i个结合位点的特征值N′并用于预测。L*lenNNiii′=3.3预测方法3.3.1随机森林方法随机森林[28]（RF，RandomForest）是一种由多棵决策树组合、基于Bagging集成学习方法的联合预测模型，特点是能够避免单一模型的缺陷，消除某一组特征参数自身所带来的影响。图3.2随机森林工作流程[29]Fig3.2WorkflowofRandomforest[29]（3.1）
【参考文献】

相关期刊论文前3条

1 王海;张倩;方向东;;绝缘子调控基因的表达[J];中国生物化学与分子生物学报;2011年06期

2 高智红;张利绒;罗辽复;;应用离散增量方法识别人类MicroRNAs前体序列[J];内蒙古大学学报(自然科学版);2010年06期

3 李凤敏;李前忠;林昊;;基于离散增量和协变判别函数识别蛋白质亚核定位[J];内蒙古大学学报(自然科学版);2008年01期

本文编号：2887419

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2887419.html

上一篇：一年蓬与小蓬草沿纬度-海拔梯度耐寒性变化特征
下一篇：基于涡旋光诱导的量子光学效应的调控

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|