基于GoogLeNet模型的带假结的RNA二级结构预测方法
发布时间:2020-12-04 02:57
RNA参与着生物体遗传信息的表达、蛋白质的翻译及基因调控等多个生物过程,在生物体内扮演着十分重要的角色。RNA的结构与其功能紧密相关,只有确定RNA的结构才可深入研究RNA的功能。因此,研究RNA的二级结构具有极其重要的意义。传统的RNA结构获取主要有生物实验及计算机预测两种方法。传统的生物实验手段存在成本花费高,时间消耗多等问题。因此,计算机方法成为目前主要的研究手段。现有的预测RNA二级结构的主要方法有:比较序列分析法、动态规划方法及启发式算法等。某种程度上来说,这些方法均取得较好的效果,但也存在着一定的不足。尤其是含假结的RNA结构复杂,使得预测难度加大,往往导致预测效果不理想。假结是一种特殊的RNA结构单元,也影响着RNA的功能。因此,假结的预测一直是RNA二级结构研究中的难点问题。传统的深度学习方法在预测RNA二级结构时,虽然取得较好的效果,但随着网络层数的增加,会出现参数量增多、过拟合等问题。Goog Le Net模型从网络的深度和宽度角度出发,在卷积神经网络模型的基础上进行改进,在提取出更多特征信息的同时,有效提高计算效率。因此,本文使用Goog Le Net模型并借助动...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
中心法则中RNA的作用由此可见,RNA分子具有携带遗传信息、传递遗传信息、参与蛋白质的合成
第5章基于GoogLeNet模型的带假结的RNA二级结构预测方法29为1059个、486个及378个。原始数据集是使用CT文件格式表示RNA的二级结构,CT文件不仅包含着数据集中RNA的序列信息及结构信息,而且包含与本实验无关的信息。其中,使用碱基“A”、“U”、“G”、“C”组合形成的序列表示RNA的序列信息,使用“.”、“(”、“)”、“[”、“]”、“{”、“}”点括号表示法表示RNA的结构信息。因此,本文需要将可用的RNA序列信息和结构信息抽取出来。CT文件表示的RNA二级结构如图5.1所示,在CT文件的第一行包含RNA序列的长度及名称等描述信息,数字M表示某条RNA序列的长度,数字M后面的字符串表示该RNA的名称。除去首行,CT文件对的每一行都包括6列数据:第1列和第6列表示该条RNA序列碱基的位置;第2列表示该条RNA序列从起始至结束位置各个碱基的排列顺序;第3列表示该RNA序列中与某一位置碱基相邻的前一个碱基所在位置;第4列表示该RNA序列中与某一位置碱基相邻的后一个碱基所在位置;第5列表示该RNA序列中与该位置碱基是否发生碱基互补配对的碱基,其中数字非“0”表示该位置碱基与第1列或第6列相应位置的碱基发生了碱基互补配对,数字“0”表示该位置碱基与第1列或第6列相应位置的碱基未形成碱基对。图5.1CT文件RNA的序列信息在CT文件的第2列,可直接抽取出来。本文使用七个标
第5章基于GoogLeNet模型的带假结的RNA二级结构预测方法32图5.2RNA序列的表示方法设计通过上述RNA序列表示方法将某条RNA序列转换为一个RNA序列的二维矩阵,由于GoogLeNet模型需要预测每一个碱基的配对状况,因此需要拆分RNA序列的二维矩阵。若将某条RNA序列的长度定义为m,经过RNA序列表示方法将其转化为一个mm的二维矩阵。针对以上情况,借助滑动窗口的思想将矩阵拆分为m个小矩阵,使用a表示滑动窗口的大小,这样每个小矩阵的尺寸则为am。因此,一个大小为am的矩阵代表着该RNA序列的一个碱基。其中,滑动窗口的尺寸会影响实验模型的精确度。若设置的滑动窗口过大,会提取矩阵
本文编号:2896911
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
中心法则中RNA的作用由此可见,RNA分子具有携带遗传信息、传递遗传信息、参与蛋白质的合成
第5章基于GoogLeNet模型的带假结的RNA二级结构预测方法29为1059个、486个及378个。原始数据集是使用CT文件格式表示RNA的二级结构,CT文件不仅包含着数据集中RNA的序列信息及结构信息,而且包含与本实验无关的信息。其中,使用碱基“A”、“U”、“G”、“C”组合形成的序列表示RNA的序列信息,使用“.”、“(”、“)”、“[”、“]”、“{”、“}”点括号表示法表示RNA的结构信息。因此,本文需要将可用的RNA序列信息和结构信息抽取出来。CT文件表示的RNA二级结构如图5.1所示,在CT文件的第一行包含RNA序列的长度及名称等描述信息,数字M表示某条RNA序列的长度,数字M后面的字符串表示该RNA的名称。除去首行,CT文件对的每一行都包括6列数据:第1列和第6列表示该条RNA序列碱基的位置;第2列表示该条RNA序列从起始至结束位置各个碱基的排列顺序;第3列表示该RNA序列中与某一位置碱基相邻的前一个碱基所在位置;第4列表示该RNA序列中与某一位置碱基相邻的后一个碱基所在位置;第5列表示该RNA序列中与该位置碱基是否发生碱基互补配对的碱基,其中数字非“0”表示该位置碱基与第1列或第6列相应位置的碱基发生了碱基互补配对,数字“0”表示该位置碱基与第1列或第6列相应位置的碱基未形成碱基对。图5.1CT文件RNA的序列信息在CT文件的第2列,可直接抽取出来。本文使用七个标
第5章基于GoogLeNet模型的带假结的RNA二级结构预测方法32图5.2RNA序列的表示方法设计通过上述RNA序列表示方法将某条RNA序列转换为一个RNA序列的二维矩阵,由于GoogLeNet模型需要预测每一个碱基的配对状况,因此需要拆分RNA序列的二维矩阵。若将某条RNA序列的长度定义为m,经过RNA序列表示方法将其转化为一个mm的二维矩阵。针对以上情况,借助滑动窗口的思想将矩阵拆分为m个小矩阵,使用a表示滑动窗口的大小,这样每个小矩阵的尺寸则为am。因此,一个大小为am的矩阵代表着该RNA序列的一个碱基。其中,滑动窗口的尺寸会影响实验模型的精确度。若设置的滑动窗口过大,会提取矩阵
本文编号:2896911
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2896911.html