与棉纤维发育相关的EST生物信息学分析
本文关键词:与棉纤维发育相关的EST生物信息学分析,,由笔耕文化传播整理发布。
【摘要】: 棉花作为纤维的重要来源,是一种重要的经济作物,在世界经济中发挥着重要的作用.随着测序技术和生物信息学的快速发展,GenBank等重要分子生物数据库中登陆的序列呈指数增长,截至2007年4月,NCBI、EMBL和DDBJ3大数据库收录的核酸序列已经达到67,218,344条,共计71,292,211,453碱基对,其中棉花EST有281,233条,利用生物信息学手段对棉纤维发育相关的EST进行大规模分析显得日益重要.本实验利用138,086条与棉纤维发育相关的ESTs进行生物信息学研究,开发新标记和功能分析,为加密遗传图谱、基因定位、发掘新基因、比较基因组、基因网络分析和分子进化奠定坚实的基础. 为了在棉花中开发EST-SSR功能性标记,利用生物信息学方法对NCBI网上公开的63485条雷蒙德氏棉(Gossypium raimondii Ulbrich)ESTs序列进行EST-SSRs特征分析.剔除冗余序列,得到非冗余序列58906条.在非冗余序列中发现含不同重复基元SSRs的EST序列有2620条,共2818个EST-SSRs,EST-SSRs序列的频率是4.45%,平均相隔14.8kb出现一个SSR.在1-6bp的重复基元中,三核苷酸重复基元的SSRs出现频率最高(38.31%),其次是二核苷酸(24.09%)、单核苷酸(23.35%).统计所有的重复基元类型,所占比例最大的是A/T(18.67%),其次是AT/TA(14.83%).在复合型(Compound)中发现三核苷酸串联三核苷酸的重复基元出现频率最高,为48.65%.利用Prime 3软件,设计了1554对EST-SSRs引物,应用这些引物对我室四倍体作图亲本陆地棉TM-1和海岛棉海7124进行多态性检测,其中744对有多态性,多态性频率为47.9%.这些EST-SSRs已有效用于不同棉种间的分布特征比较及染色体定位等方面研究. 对来自A组、D组和AD组的12个棉纤维发育时期混合cDNA文库的138,086条ESTs序列进行不同棉种间EST序列同源性比较,其中A组(G.arboreum,7-10dpa)39,117条、D组(G.raimondii,-3 to 3dpa)32,316条和AD组(G.hirsutum,10个文库,覆盖-3-25dpa)66,653条,通过同一种内EST序列拼接分析,分别得到A、D和AD三个棉种的Unigenes16,100条、11,912条和14,307条,共42,319unigenes.经过对不同基因组间的Unigenes序列相似性分析,得到七个集合(D∩(?)∩(?)、AD∩(?)∩(?)、A∩D∩AD、A∩D∩(?)、A∩AD∩(?)、A∩(?)∩(?)和D∩AD∩(?))的相似序列,分别对A组和D组间共有而在AD组间没有相似性(A∩D∩(?))的序列937条,A组和AD组间有而在D组间没有的(A∩AD∩(?))2,717条,D组和AD组间有而在A组间没有的(D∩AD∩(?))2188条,三个组间相似性高的序列(A∩D∩AD)共有2441条。D组独有(D∩(?)∩(?))的6346,A组独有(A∩(?)∩(?))的7996和AD组独有的(AD∩(?)∩(?))4467条Unigenes进行了功能注释和代谢分析.结果表明: (1) A组、D组和AD组间不同关系(D∩(?)∩(?)、AD∩(?)∩(?)、A∩D∩AD、A∩D∩(?)、A∩AD∩(?)、A∩(?)∩(?)和D∩AD∩(?)七个集合)的相似性序列进行功能分类分成生物进程(Biologicat Process)、细胞组分(Cellular Component)和分子功能(Molecular Function)3个类型.在同一功能类型不同集合中所占比例最大的前两种功能基本相同,生物进程中所占比例最大的是cellulaur process,其次是metabolicprocess;细胞组分中所占比例最大的是cell/cell part,其次是organelle;分子功能中所占比例最大的两个是catalytic activity和binding,即在棉纤维发育进程中,具有催化活性的基因在不同棉种中均发挥着重要作用. (2)对A、D、AD基因组七个集合27,092条相似性序列进行功能和代谢分析.功能分析表明,13,845条功能已知,13,247条未知功能.利用KEGG数据库进一步对已知功能的13,845条序列进行代谢分析,2,543条Unigenes有代谢途径,其中能量和碳水化合物代谢最多(1607,63.19%),其次是氨基酸代谢(718,28.23%).在已知功能的13,845条序列中与棉纤维发育相关的重要基因如膨胀素、纤维素舍酶、蔗糖合酶、UDP、磷酸烯醇丙酮酸羧化酶、蔗糖转运蛋白、MYB家族和液泡H+-ATPases(V-ATPase)都存在.通过对D(D_5)基因组和AD(A_2D_5)基因组间的与棉纤维发育相关的Unigenes功能分析发现,D组38.86%((2188+2441)/11912)的Unigenes与AD组中的Unigenes具有相同的功能.说明在D基因组和AD基因组中在棉纤维起始发育阶段有很多相似的表达基因,尽管D基因组的种子上只有短绒没有生产上可利用的纤维,但D基因组和AD基因组在转录水平上的高同源性表明D基因组蕴含着决定纤维发育的基因.A基因组和AD基因组间有5158条Unigenes有相似性.5158条序列中有847(16.42%)条序列有代谢途径.在代谢方面主要以碳水化合物和能量代谢与氨基酸代谢为主.对A基因组(7 to10dpa)和D基因组(-3 to 3dpa)中3378条相似性序列进行代谢和功能分析,2916条序列有功能,748条序列在KEGG数据库中找到代谢途径.通过分析A、D基因组间的相似序列来源说明上述基因在纤维启动和伸长阶段均在表达. (3)四倍体AD基因组与二倍体A和D基因组的转录产物比较发现有4522(31.61%,A∩D∩AD)Unigenes在A和D基因组共同表达,表明这些基因是来源比较保守的祖先基因,它们并合到四倍体AD基因组中仍然转录,发挥相应的功能及参与相应的代谢进程.在A∩AD∩D中有2717(18.99%)Unigenes在A基因组中找到相似序列而在D基因组中没有,说明这些Unigenes仅在纤维发育伸长阶段表达或在A和A_T基因组专化表达;在D∩AD∩(?)中有2601(18.18%)条Unigenes在D基因组中找到相似序列而在A基因组中没有,说明这些Unigenes仅在纤维起始阶段特异表达或在D和D_T基因组专化表达;而在AD∩(?)A∩(?)中有4467(31.22%)Unigenes在A和D基因组中均未找到相似序列,是AD基因组中特有的转录产物,可能是由于多倍化后产生新的转录产物,进而在功能上发生了变化. (4)通过A和D基因组相互比较发现A基因组有4797(29.77%)Unigenes在D基因组中有相似序列,D基因组在A基因组中有3378(28.36%)Unigenes存在相似性,表明相似Unigenes在纤维发育起始阶段和伸长期均表达.在A和D基因组中没有相似性的序列分别是11303(70.20%)和8534(71.64%),进一步说明这些Unigenes是不同纤维发育期特异表达的或基因组专化表达的基因. 生物信息学分析结果为进一步研究棉纤维的发育,阐明不同棉种间纤维发育关系,进而为改良棉纤维品质奠定基础.
【关键词】:生物信息 EST 功能分析 相似性 代谢 Unigene
【学位授予单位】:南京农业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:S562
【目录】:
- 摘要6-9
- ABSTRACT9-13
- 第一部分 文献综述13-39
- 第一章 生物信息学概述13-30
- 1.生物信息学产生的背景13-15
- 2.生物信息学的发展与应用15-30
- 2.1 相关学科和技术的发展15-16
- 2.2 分子生物信息数据库16-24
- 2.2.1 基因组数据库18
- 2.2.2 序列数据库18-21
- 2.2.2.1 核酸序列数据库19-20
- 2.2.2.2 蛋白质序列数据库20-21
- 2.2.3 结构数据库21-22
- 2.2.4 二次数据库22
- 2.2.5 其他数据库22-24
- 2.3 生物信息数据分析工具24-27
- 2.4 生物信息学的应用27-30
- 第二章 与棉纤维发育相关的ESTs研究进展30-38
- 1.EST概述30-35
- 1.1 EST基本概念30
- 1.2 EST的获取30-31
- 1.3 EST数据库31-32
- 1.4 EST生物信息学分析32-35
- 1.4.1 ESTs与基因识别33
- 1.4.2 ESTs与基因图谱的绘制33
- 1.4.3 ESTs与基因预测33
- 1.4.4 ESTs与SNPs33-34
- 1.4.5 利用ESTs大规模分析基因表达水平34-35
- 1.4.6 用于分子标记的开发35
- 2.棉纤维发育相关的ESTs研究进展35-38
- 2.1 基因克隆35
- 2.2 基因注释和功能分析35-37
- 2.3 EST-SSR新标记的开发与遗传图谱的构建37-38
- 本研究的目的与意义38-39
- 第二部分 研究报告39-63
- 第三章 雷蒙德氏棉EST-SSRs分布特征及开发与利用39-46
- 1.材料和方法40-41
- 1.1 EST序列来源40
- 1.2 EST—SSRs的开发40
- 1.3 EST—SSRs的引物开发40-41
- 1.4 DNA提取、SSR扩增和电泳41
- 2.结果和讨论41-46
- 2.1 源于雷蒙德氏棉ESTs的SSRs发掘41-42
- 2.2 雷蒙德氏棉EST—SSRs的分布特征42-44
- 2.3 雷蒙德氏棉EST—SSRs标记开发及其在海、陆四倍体栽培棉种间的多态性44-46
- 第四章 与棉纤维发育相关的ESTs组装与功能分析46-63
- 1.材料与方法47-49
- 1.1 EST序列来源47
- 1.2 Unigenes的发掘47
- 1.3 序列间的相似性分析47
- 1.4 相似性序列功能注释47-49
- 2.结果49-59
- 2.1 Unigenes的获得49-50
- 2.2 不同基因组间Unigenes序列相似性分析50-51
- 2.3 27092 Unigenes功能注释51-53
- 2.4 27092 Unigenes代谢分析53-54
- 2.5 A、D、AD基因组间相似性序列代谢分析54-57
- 2.6 三个基因组间共有的相似序列功能和代谢分析57-58
- 2.7 D组和AD组间相似性Unigenes功能和代谢分析58-59
- 2.8 A组和AD组间相似性Unigenes功能和代谢分析59
- 2.9 A组和D组间相似性Unigenes功能和代谢分析59
- 3.讨论59-63
- 3.1 不同基因组间ESTs的功能表达59-61
- 3.1.1 D基因组和AD基因组间功能EST的表达59-61
- 3.1.2 A基因组和D基因组不同文库间的功能ESTs表达61
- 3.1.3 A基因组和AD基因组不同文库间的功能ESTs表达61
- 3.2 与棉纤维发育相关的ESTs代谢分析61-63
- 全文结论63-65
- 参考文献65-78
- 附录78-140
- 本试验中用的程序脚本140-149
- 1.提取序列脚本140-143
- 2.格式转换143-144
- 3.发掘SSR后的结果处理144-146
- 4.统计序列长度和GC含量146-148
- 5.提取PRIMER3结果的相关信息148-149
- 攻读硕士学位期间已发表和待发表的论文149-150
- 致谢150
【相似文献】
中国期刊全文数据库 前10条
1 张波;李鲜;陈昆松;;基于EST库的猕猴桃脂氧合酶基因家族成员的克隆[J];园艺学报;2008年03期
2 董昌金,姚占芳;香菇优良品种HL_6的选育研究[J];中国食用菌;1999年06期
3 邹华文;朱玉梅;黄丛林;田小海;;一种简单、快速克隆玉米功能基因的方法[J];长江大学学报(自科版)农学卷;2007年02期
4 张丰源;;乌拉尔甘草EST特征分析[J];民营科技;2008年10期
5 安泽伟;赵彦宏;程汉;李维国;黄华孙;;橡胶树EST-SSR标记的开发与应用[J];遗传;2009年03期
6 陈全求;詹先进;蓝家样;黄云;;EST分子标记开发研究进展[J];中国农学通报;2008年09期
7 江宁,邓龙文,谭国林,湛凤凰,周鸣,曹莉,邱元正,谢奕,李桂源;一个定位在7q32染色体区域的鼻咽癌负相关EST[J];遗传学报;1999年04期
8 周国岭,杨光圣,傅廷栋;基因克隆技术[J];华中农业大学学报;2001年06期
9 童富淡,汪俏梅,刘艳荷;西方蜜蜂四个亚种酯酶同工酶型和苹果酸脱氢酶Ⅱ同工酶基因型的遗传差异[J];动物学报;2002年06期
10 于学宁;刘欣玲;董秀春;樊金会;曹帮华;;刺槐Na~+/H~+逆向转运蛋白RpNHX1基因的分离和生物信息学分析(英文)[J];分子植物育种;2007年06期
中国重要会议论文全文数据库 前10条
1 段云;武予清;蒋月丽;苗进;吴仁海;;小麦红吸浆虫唾腺EST序列的生物信息学分析[A];公共植保与绿色防控[C];2010年
2 刘保忠;董波;相建海;;不同发育时期文蛤幼虫cDNA文库的构建及ESTs测序和分析[A];中国海洋湖沼学会中国动物学会贝类学分会第十二次学术讨论会摘要[C];2005年
3 麻巧迎;张帅;王春义;雒s
本文编号:368351
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/368351.html