基于机器学习的复制起始位点识别
发布时间:2021-07-12 04:07
随着社会日益信息化,各个领域在这一进程中不断地推进科学与技术的相互结合,综合了多门学科知识的生物信息学应运而生,它不再局限于仅使用传统的生物实验方法解决问题。而人类基因组计划的实施使得生物基因测序工程得到了迅猛发展,在生物信息学基因时代,载有遗传信息的基因数据呈爆炸式增长。这些庞大的数据带动了生物学很多领域的快速发展如基因组学,蛋白质组学,疾病研究,精确医疗等。在这些领域中,二分类和多分类问题是经常遇到的问题,如非编码RNA识别、蛋白质同源检测、位点识别等问题。其中本文研究的DNA复制起始位点识别属于位点识别中的一种。本文首先对生物信息学和机器学习进行理论阐述,然后根据研究任务制定相应的研究思路。在实证分析中,本文把从国际酵母生物数据库获取得到的基因组作为我们的初始数据集,利用k元核苷酸频率、伪核苷酸组分、热独编码和词向量等特征提取方法,训练出融合DNA序列的k元碱基频率特征和二型三元伪核苷酸物理化学性质特征的一种新方法。该方法主要是先对核苷酸频率特征进行了优化选择,然后结合改进的伪核苷酸组分做第二步特征提取,其中选取了所有三元伪核苷酸物理化学性质来进行研究。接着利用主成分分析对特征集...
【文章来源】:湘潭大学湖南省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
复制起始位点示意图
-14-过激活函数变换后,在输出节点得到最高概率下的值,然后用它和target的编码向量值比较,计算损失函数,通过不断迭代更新权重矩阵。最终训练后会得一个权重矩阵W,输入层中每个特征的One-hot编码值和权重矩阵W相乘,就是我们的词向量。注意,Word2Vec过程中的输出层并不是我们所需要的结果,训练得到的权重矩阵W才是。图3-2Skip-gram模型的网络结构图3.1.5小结论文在3.1节中介绍了4种特征特征处理方法,但是每种方法都各有利弊。其中热度编码和词嵌入方法处理后得到特征维度过大,特征前后位置的关联性没有得到体现,这与我们研究的最初目的相违背。所以在本文最终基于k-mer和伪核苷酸组分这两种方法特征提龋3.2特征选择方法在很多领域的研究和应用中,为了进行分析寻找规律,我们往往通过搜集大量数据特征建立指标系统来表征某一事物或者现象。虽然大样本会为统计研究提供更丰富的信息量,但是这同时也增加了研究者的工作量,导致分析变得更加复杂。特征空间包括相关特征、无关特征、冗余特征,一个特定的学习算法下,无法确定某一特征的有效性。而特征选择正是从当前特征空间中选取对学习算法最
-16-把特征值21、带入到线性方程0E-Ax,求出标准化后的特征向量为:.2121,2121(4)把特征向量按其对应的特征值降序排列得到矩阵A,同时验证矩阵C对角化。,21212121A.5/2002212121215654545621212121TACA(5)若要得到降维后的s维数据,只需取矩阵A的前s行作为新的矩阵S,Y=SX即为降维s维后的数据。假设我们选取的数据维度是2,通过基变换可以把二维降到一维。如图示3-3,原始二维数据通过基变换降维后,投影到一维坐标上。图3-3利用主成分降维图示3.2.2线性判别分析LDA线性判别分析(LDA),在模式识别中有着相当广泛的应用。它和上节介绍的PCA就像是一对双胞胎,二者进行降维的基本思想是相同的,都是通过把高维数据在低维度上做投影的同时,保留尽可能多的原始数据信息。PCA是一种不考虑分类标签的降维方法,而LDA进行降维的时候需要样本标签,它是一种有监督的降维方法,是一种基于分类模型进行特征属性合并的操作。
【参考文献】:
期刊论文
[1]裂殖酵母复制起始位点的序列特征分析和预测[J]. 邢永强,赵宏宇,刘国庆,赵秀娟,蔡禄. 生物物理学报. 2014(06)
[2]集成学习方法在企业财务危机预警中的应用[J]. 梁明江,庄宇. 软科学. 2012(04)
[3]神经网络在预测中的一些应用研究[J]. 刘豹,胡代平. 系统工程学报. 1999(04)
硕士论文
[1]主成分分析法研究及其在特征提取中的应用[D]. 陈佩.陕西师范大学 2014
[2]集成学习算法研究[D]. 马冉冉.山东科技大学 2010
本文编号:3279168
【文章来源】:湘潭大学湖南省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
复制起始位点示意图
-14-过激活函数变换后,在输出节点得到最高概率下的值,然后用它和target的编码向量值比较,计算损失函数,通过不断迭代更新权重矩阵。最终训练后会得一个权重矩阵W,输入层中每个特征的One-hot编码值和权重矩阵W相乘,就是我们的词向量。注意,Word2Vec过程中的输出层并不是我们所需要的结果,训练得到的权重矩阵W才是。图3-2Skip-gram模型的网络结构图3.1.5小结论文在3.1节中介绍了4种特征特征处理方法,但是每种方法都各有利弊。其中热度编码和词嵌入方法处理后得到特征维度过大,特征前后位置的关联性没有得到体现,这与我们研究的最初目的相违背。所以在本文最终基于k-mer和伪核苷酸组分这两种方法特征提龋3.2特征选择方法在很多领域的研究和应用中,为了进行分析寻找规律,我们往往通过搜集大量数据特征建立指标系统来表征某一事物或者现象。虽然大样本会为统计研究提供更丰富的信息量,但是这同时也增加了研究者的工作量,导致分析变得更加复杂。特征空间包括相关特征、无关特征、冗余特征,一个特定的学习算法下,无法确定某一特征的有效性。而特征选择正是从当前特征空间中选取对学习算法最
-16-把特征值21、带入到线性方程0E-Ax,求出标准化后的特征向量为:.2121,2121(4)把特征向量按其对应的特征值降序排列得到矩阵A,同时验证矩阵C对角化。,21212121A.5/2002212121215654545621212121TACA(5)若要得到降维后的s维数据,只需取矩阵A的前s行作为新的矩阵S,Y=SX即为降维s维后的数据。假设我们选取的数据维度是2,通过基变换可以把二维降到一维。如图示3-3,原始二维数据通过基变换降维后,投影到一维坐标上。图3-3利用主成分降维图示3.2.2线性判别分析LDA线性判别分析(LDA),在模式识别中有着相当广泛的应用。它和上节介绍的PCA就像是一对双胞胎,二者进行降维的基本思想是相同的,都是通过把高维数据在低维度上做投影的同时,保留尽可能多的原始数据信息。PCA是一种不考虑分类标签的降维方法,而LDA进行降维的时候需要样本标签,它是一种有监督的降维方法,是一种基于分类模型进行特征属性合并的操作。
【参考文献】:
期刊论文
[1]裂殖酵母复制起始位点的序列特征分析和预测[J]. 邢永强,赵宏宇,刘国庆,赵秀娟,蔡禄. 生物物理学报. 2014(06)
[2]集成学习方法在企业财务危机预警中的应用[J]. 梁明江,庄宇. 软科学. 2012(04)
[3]神经网络在预测中的一些应用研究[J]. 刘豹,胡代平. 系统工程学报. 1999(04)
硕士论文
[1]主成分分析法研究及其在特征提取中的应用[D]. 陈佩.陕西师范大学 2014
[2]集成学习算法研究[D]. 马冉冉.山东科技大学 2010
本文编号:3279168
本文链接:https://www.wllwen.com/projectlw/swxlw/3279168.html
教材专著