计算分子生物学中若干问题研究
发布时间:2020-04-20 12:07
【摘要】:DNA、RNA和蛋白质的初级结构(或线性序列)都是由较小的单元组成的无分枝的线性聚合体大分子。对于DNA,这些单元是A(腺嘌呤)、c(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)这4种核苷酸残基;对于RNA,这些单元是A、C、G和U(尿嘧啶)这4种核苷酸残基;对于蛋白质这些单元是20种氨基酸残基,即A(丙氨酸)、C(半胱氨酸)、D(天冬氨酸)、E(谷氨酸)、F(苯丙氨酸)、G(甘氨酸)、H(组氨酸)、I(异亮氨酸)、K(赖氨酸)、L(亮氨酸)、M(甲硫氨酸)、 N(天冬酰氨酸)、P(脯氨酸)、Q(谷氨酰胺酸)、R(精氨酸)、s(丝氨酸)、T(苏氨酸)、V(缬氨酸)、W(色氨酸)和Y(酪氨酸)。这样,一个DNA(RNA)序列可以看作是在一个有四个字母的字母表N={A,C,G,T(U)}上的字(word),同样,蛋白质也可以看作是一个在20个字母上的字。而RNA(DNA)二级结构是由自由基(free base)和基对A-U(A-T)和C-G组成的,在一定程度上,RNA(DNA)二级结构经过处理后都可以转化为线性序列。因此,组合学和统计学的工具和方法可以在研究生物序列和生物结构上发挥很大的作用。同样我们可以用几何方法来表示生物序列和二级结构,几何拓扑和群论也发挥很大作用。 本文的主要工作包括以下几个方面: 由于目前所有有关RNA二级结构的预测算法要预测出所有序列的二级结构仍然很困难,在第二章我们就应用组合计数的技巧解决了有关RNA二级结构及其子结构的计数问题,推广了M.S.Waterman等人[5-7,9]的结果。 自由能是衡量最优结构的常用标准,在第三章我们给出了算法用于计算RNA二级结构(含假结)的最小自由能。 在第四章,我们给出了算法用于寻找mRNA序列和蛋白序列的最优局部对比和全局对比,我们还解决了生物序列和生物结构的LCS问题。 在第五章,我们根据DNA序列中四种核苷酸A、G、C和T的化学结构分类,给出了DNA序列一种特征表示,2种三维图形表示方法,一种二维图形表示和一种四维表示,利用序列对应点的坐标构造距离矩阵和L/L矩阵。计算L/L矩阵的正规化最大特征值和距离矩阵的平均频带宽度,并把它们作为DNA序列的一种不变量。基于这些DNA序列的不变量我们分析了human,goat,gallus,opossum,lemur,mouse,rabbit,rat,bovine,gorilla,chimpanzee等11个物种的球蛋白(globin)基因序列的第一个外显子序列的相似性和非相似性。我们还根据20种氨基酸的化学性质分类,给出了氨基酸序列的一种特征表示,提出了f~X-独立成分和特征信息熵的概念,利用特征信息熵和f~X-独立成分分别构造向量比较了几种动物的神经元基因序列。 在最后一章,根据RNA二级结构中自由基和基对的化学结构分类,我们给出了 RNA二级结构的一种三维图形表示,一种四维表示和一种7维表示,并构造距离矩 阵和L/L矩阵,利用L/L矩阵的正规化最大特征值和结构不变量比较了9种病毒的 RNA-3二级结构的相似性.
【图文】:
图5.1:序列ATGGTGCACC对应的特征曲线(基于顺序ATGC),图中点代表组成序列的基由特征曲线我们可以构造矩阵:距离矩阵B(矩阵元素句为特征曲线上点葱夕之间的欧氏距离);M/M矩阵(矩阵元素fn。=尚);L/“矩阵(矩阵‘。一兀溉石“p特征曲线上第‘点与第,点之间的距离除以由‘到,的距离...
图5.5:序列ATGGTGCACC对应的特征曲线(基于顺序AGTC),图中点代表组成序列的基本节利用L/L矩阵的最大特征值和E矩阵的不变量一序列不变量来比较相似性,表5.28列出了n种动物的口基因的第一个外显子的L/L矩阵的最大特征值.表5.2&n种动物的刀签因的第一个外显子的L/L矩阵的最大特征值形形式式HumanGoatop咖umG心usL忍murMouseR洛bhitR汤tC州llaBOvine八八江,GCCC57.197452.819953.771256.654554.260()57.036854.864656.985557.277654.6639户户几)CGGG55.817353.194553.543556.703454.638956.346453.657456.293055.921854.1207人人GTCCC59.112155.273757.414157.840357.398860.084457.885058.348459.665766.6385由表5.28可知形式AGTC的最大特征值最大,而形式ATCG的最大特征值最小(除Goat,Gallus和Lemmur外).下面我们简单介绍序列不变量的构造:表5.29给出了序列ATGGTGCACC的E矩阵(基于形式ATGC),由表5.29我们可以观察到该矩阵每行元素从左到右逐渐增大,且主对角线上的元素最小(1或而),次对角线上的元素次之(2,而和涯),.……,如此类推下去,平行于主对角线上的元素依次增大,这些平行于主对,,,,
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:Q7
本文编号:2634522
【图文】:
图5.1:序列ATGGTGCACC对应的特征曲线(基于顺序ATGC),图中点代表组成序列的基由特征曲线我们可以构造矩阵:距离矩阵B(矩阵元素句为特征曲线上点葱夕之间的欧氏距离);M/M矩阵(矩阵元素fn。=尚);L/“矩阵(矩阵‘。一兀溉石“p特征曲线上第‘点与第,点之间的距离除以由‘到,的距离...
图5.5:序列ATGGTGCACC对应的特征曲线(基于顺序AGTC),图中点代表组成序列的基本节利用L/L矩阵的最大特征值和E矩阵的不变量一序列不变量来比较相似性,表5.28列出了n种动物的口基因的第一个外显子的L/L矩阵的最大特征值.表5.2&n种动物的刀签因的第一个外显子的L/L矩阵的最大特征值形形式式HumanGoatop咖umG心usL忍murMouseR洛bhitR汤tC州llaBOvine八八江,GCCC57.197452.819953.771256.654554.260()57.036854.864656.985557.277654.6639户户几)CGGG55.817353.194553.543556.703454.638956.346453.657456.293055.921854.1207人人GTCCC59.112155.273757.414157.840357.398860.084457.885058.348459.665766.6385由表5.28可知形式AGTC的最大特征值最大,而形式ATCG的最大特征值最小(除Goat,Gallus和Lemmur外).下面我们简单介绍序列不变量的构造:表5.29给出了序列ATGGTGCACC的E矩阵(基于形式ATGC),由表5.29我们可以观察到该矩阵每行元素从左到右逐渐增大,且主对角线上的元素最小(1或而),次对角线上的元素次之(2,而和涯),.……,如此类推下去,平行于主对角线上的元素依次增大,这些平行于主对,,,,
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:Q7
【引证文献】
相关博士学位论文 前1条
1 曹智;新型表示模式下的DNA序列和RNA二级结构分析方法研究[D];湖南大学;2010年
相关硕士学位论文 前3条
1 康金慧;DNA序列的比较及RNA二级结构计数[D];大连理工大学;2006年
2 沈玲玲;基因序列显示与分析系统[D];扬州大学;2009年
3 李阳;图形表示在DNA基因序列识别算法中的应用[D];湖南大学;2010年
本文编号:2634522
本文链接:https://www.wllwen.com/yixuelunwen/shiyanyixue/2634522.html
最近更新
教材专著