整合基因组序列和蛋白质空间结构信息预测转录因子DNA结合位点
发布时间:2023-03-19 12:41
转录因子(transcription factor,TF)是基因表达调控的重要一环,而转录因子结合位点是转录因子特异性调控的基础。因此,破译转录因子结合位点是解析转录因子功能的重要任务之一。然而,在后基因组时代,随着大量转录因子氨基酸序列被科学家发现,如何大量、快速、准确的根据氨基酸序列发掘转录因子的DNA结合位点,并为解析转录因子功能提供关键线索,成为生物学家面临的巨大挑战之一。相对于已知基因组中的大量转录因子(一个转录因子家族往往包含来自不同物种的数千或数万个成员),被实验分析表征过的转录因子数目十分有限(每个家族不过几个成员或十几个成员)。另一方面,相比于仅仅基于氨基酸序列的预测,实验分析往往提供了更丰富、详细、确定的信息。如何把从少数家族成员获得的细致信息与大量家族成员的序列信息整合起来,把序列数据转化为生物功能相关的知识,是生物信息学的重要课题。本文探索并验证了一条把少数转录因子-DNA复合物结构数据和基因组序列数据整合起来,应用于破译更多不同转录因子结合位点的新途径。更具体地,我们提出了一种整合基因组序列信息、蛋白质-DNA复合物数据和统计学习的预测方法,用于预测四环素阻遏...
【文章页数】:116 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 课题背景
1.2 国内外相关研究的现状
1.2.1 测定结合位点的实验方法
1.2.2 预测结合位点的计算方法
1.3 TetR家族蛋白
1.3.1 TetR家族蛋白简介
1.3.2 TetR家族蛋白的结构特点
1.3.3 TetR家族蛋白的结合位点
1.4 本文的研究意义
1.5 本文工作简介
第二章 数据收集及数据处理
2.1 引言
2.2 TetR家族蛋白序列下载
2.3 下载基因组和提取上游序列
2.4 构建随机回文序列库
2.5 TetR家族蛋白的结合位点特征分析
2.6 总结与展望
第三章 基于基因组序列的预测模型
3.1 引言
3.2 HTH序列中与DNA结合无关的位点分析
3.3 构建预测模型
3.3.1 搜索同源蛋白并分组
3.3.2 提取上游序列
3.3.3 回文序列相似度的定义
3.3.4 计算富集度
3.3.5 模式搜索寻找上游相似序列
3.4 实验材料与方法
3.4.1 HTH序列中位点保守性分析
3.4.2 实验试剂
3.4.3 蛋白表达和纯化
3.4.4 电泳迁移滞后实验(EMSA)
3.5 实验结果
3.5.1 三种权重函数测试
3.5.2 实验验证
3.6 应用到整个家族
3.7 总结与展望
第四章 统一比对的HTH-DNA数据集的构建
4.1 引言
4.2 数据筛选
4.2.1 预测数据的过滤
4.2.2 TetR家族蛋白-DNA复合物晶体结构的过滤
4.2.3 HTH序列和DNA结合位点的结构比对
4.3 构建数据集合的流程
4.4 数据集合验证
4.4.1 互恰性分析
4.4.2 直接耦合分析
4.5 总结和展望
第五章 基于统计能量模型的预测模型
5.1 引言
5.2 统计能量模型介绍
5.3 统计能量模型迭代训练过程
5.3.1 构建初始能量表
5.3.2 统计能量模型修正
5.3.3 统计能量模型评估
5.4 统计能量模型预测流程
5.5 实验方法
5.5.1 菌株和材料
5.5.2 DNaseⅠ足迹实验
5.5.3 Spec-Seq实验和随机化文库的制备
5.6 模型验证
5.6.1 在测试集中的精确度
5.6.2 实验验证统计能量模型
5.6.3 统计能量模型产生的profile
5.6.4 统计能量函数产生的结合位点profile的可靠性
5.6.5 预测整个家族
5.7 总结和展望
第六章 结合位点预测的网络服务器的搭建
6.1 引言
6.2 预测流程概述
6.2.1 对输入转录因子预测结合位点
6.2.2 对输入DNA序列进行打分
6.3 网站设计和实现
6.3.1 主界面设计
6.3.2 预测结果界面
6.4 总结和展望
第七章 总结和讨论
参考文献
附录
致谢
在读期间发表的学术论文与取得的研究成果
本文编号:3765264
【文章页数】:116 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 课题背景
1.2 国内外相关研究的现状
1.2.1 测定结合位点的实验方法
1.2.2 预测结合位点的计算方法
1.3 TetR家族蛋白
1.3.1 TetR家族蛋白简介
1.3.2 TetR家族蛋白的结构特点
1.3.3 TetR家族蛋白的结合位点
1.4 本文的研究意义
1.5 本文工作简介
第二章 数据收集及数据处理
2.1 引言
2.2 TetR家族蛋白序列下载
2.3 下载基因组和提取上游序列
2.4 构建随机回文序列库
2.5 TetR家族蛋白的结合位点特征分析
2.6 总结与展望
第三章 基于基因组序列的预测模型
3.1 引言
3.2 HTH序列中与DNA结合无关的位点分析
3.3 构建预测模型
3.3.1 搜索同源蛋白并分组
3.3.2 提取上游序列
3.3.3 回文序列相似度的定义
3.3.4 计算富集度
3.3.5 模式搜索寻找上游相似序列
3.4 实验材料与方法
3.4.1 HTH序列中位点保守性分析
3.4.2 实验试剂
3.4.3 蛋白表达和纯化
3.4.4 电泳迁移滞后实验(EMSA)
3.5 实验结果
3.5.1 三种权重函数测试
3.5.2 实验验证
3.6 应用到整个家族
3.7 总结与展望
第四章 统一比对的HTH-DNA数据集的构建
4.1 引言
4.2 数据筛选
4.2.1 预测数据的过滤
4.2.2 TetR家族蛋白-DNA复合物晶体结构的过滤
4.2.3 HTH序列和DNA结合位点的结构比对
4.3 构建数据集合的流程
4.4 数据集合验证
4.4.1 互恰性分析
4.4.2 直接耦合分析
4.5 总结和展望
第五章 基于统计能量模型的预测模型
5.1 引言
5.2 统计能量模型介绍
5.3 统计能量模型迭代训练过程
5.3.1 构建初始能量表
5.3.2 统计能量模型修正
5.3.3 统计能量模型评估
5.4 统计能量模型预测流程
5.5 实验方法
5.5.1 菌株和材料
5.5.2 DNaseⅠ足迹实验
5.5.3 Spec-Seq实验和随机化文库的制备
5.6 模型验证
5.6.1 在测试集中的精确度
5.6.2 实验验证统计能量模型
5.6.3 统计能量模型产生的profile
5.6.4 统计能量函数产生的结合位点profile的可靠性
5.6.5 预测整个家族
5.7 总结和展望
第六章 结合位点预测的网络服务器的搭建
6.1 引言
6.2 预测流程概述
6.2.1 对输入转录因子预测结合位点
6.2.2 对输入DNA序列进行打分
6.3 网站设计和实现
6.3.1 主界面设计
6.3.2 预测结果界面
6.4 总结和展望
第七章 总结和讨论
参考文献
附录
致谢
在读期间发表的学术论文与取得的研究成果
本文编号:3765264
本文链接:https://www.wllwen.com/projectlw/swxlw/3765264.html
教材专著