基于投影和聚类的长非编码RNA与疾病的关系预测
发布时间:2021-10-07 15:28
长非编码RNA是指长度超过200nt的非编码RNA分子,多项研究表明它可以参与细胞内的多种生物过程的调控,对各类疾病的发生和发展起至关重要的作用,因此研究长非编码RNA与疾病的关系对人类的健康有深远的意义。然而由于长非编码RNA种类繁多,结构复杂,且作用机制尚未明确,目前对长非编码RNA的研究仍停留在初级阶段。关于长非编码RNA与疾病的关系这一课题,比较常见的研究是预测单一长非编码RNA与疾病的关系。不同于大多数单一长非编码RNA的研究,我们的目的是找到相似的疾病类和与其有密切关系的长非编码RNA类,通过对各类中的长非编码RNAs进行功能分析,可以得到各类中的长非编码RNAs的共性,而这种共性很有可能就是这类疾病发生发展的重要因素。本文采用了LncRNADisease数据库上经过生物实验验证的1102条数据。通过简单的数据处理,我们将所有样本数据保存为一个0-1矩阵。为了获取具有生物意义的聚类,我们提出了如下方案:将样本数据投影到高维空间,根据疾病本身具有的层次结构特点采用层次聚类,并根据fisher判别函数判断聚类类数。本文应用的投影方法包括基于推荐系统的矩阵分解算法和基于模式表示的...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
研究流程图
图 2.1 矩阵分解示意图法的聚类规则是: W 矩阵中第 i 行第 q 列的元素Wiq在第 i 行的所有元素中最大,则第本属于 q 类。 H 矩阵中第 q 行第 j 列的元素Hqj在第 j 列的所有元素中最大,则第本属于 q 类。以上规则可知,矩阵分解的维数 r 就是聚类的类数。该算法有几个缺是该算法可能收敛到局部极小,不能找到真正的最小点。第二个问题需人为的选择。第三个问题是算法的解可能并不唯一。第四个问题是法太过粗糙,不能重新定义聚类数,并且每个样本只能聚类到一个类生物学家的研究发现,长非编码 RNA 有时可以调控多个疾病的生物 基于推荐系统的矩阵分解网的发展和广泛普及给广大网络用户带来了大量的信息,但与此同时载的问题。用户对信息的需求得到满足的同时,也无法从海量的信息
别的数据样本间的距离(相似度)也有很多计算方法,本类别的数据样本间的距离。以下是欧式距离的计算公式。 2 2 21 1 2 2 i iD x y x y x y,…, 是 X 向量的第 i 个坐标, 1, 2,…, 是 Y 向量的第 i 个量的欧式距离。之间的相似度有以下三种方法,分别是最小距离(Single mplete Linkage)和平均值距离(Average Linkage)。将两个的两个数据样本间的距离作为这两个类数据样本的距离,叫最小距离,如图 2.2 所示,然而,这样的距离比较容易两个本来并不是很相似的类可能会因为其中的某个极端的认为很相似。
【参考文献】:
期刊论文
[1]长链非编码RNA与其他表观遗传修饰的相互调控及其在自身免疫性疾病中的研究进展[J]. 陈旭,刘莹,杨安钢,王涛. 细胞与分子免疫学杂志. 2015(11)
[2]长非编码RNA研究进展[J]. 陈晓敏,张栋栋,骆健俊,陈润生. 生物化学与生物物理进展. 2014(10)
[3]长链非编码RNA生物学功能及其意义研究进展[J]. 王俊青,张彦洁,任建敏,许春娣,刘炳亚,朱正纲,周同. 生命科学. 2012(06)
本文编号:3422306
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
研究流程图
图 2.1 矩阵分解示意图法的聚类规则是: W 矩阵中第 i 行第 q 列的元素Wiq在第 i 行的所有元素中最大,则第本属于 q 类。 H 矩阵中第 q 行第 j 列的元素Hqj在第 j 列的所有元素中最大,则第本属于 q 类。以上规则可知,矩阵分解的维数 r 就是聚类的类数。该算法有几个缺是该算法可能收敛到局部极小,不能找到真正的最小点。第二个问题需人为的选择。第三个问题是算法的解可能并不唯一。第四个问题是法太过粗糙,不能重新定义聚类数,并且每个样本只能聚类到一个类生物学家的研究发现,长非编码 RNA 有时可以调控多个疾病的生物 基于推荐系统的矩阵分解网的发展和广泛普及给广大网络用户带来了大量的信息,但与此同时载的问题。用户对信息的需求得到满足的同时,也无法从海量的信息
别的数据样本间的距离(相似度)也有很多计算方法,本类别的数据样本间的距离。以下是欧式距离的计算公式。 2 2 21 1 2 2 i iD x y x y x y,…, 是 X 向量的第 i 个坐标, 1, 2,…, 是 Y 向量的第 i 个量的欧式距离。之间的相似度有以下三种方法,分别是最小距离(Single mplete Linkage)和平均值距离(Average Linkage)。将两个的两个数据样本间的距离作为这两个类数据样本的距离,叫最小距离,如图 2.2 所示,然而,这样的距离比较容易两个本来并不是很相似的类可能会因为其中的某个极端的认为很相似。
【参考文献】:
期刊论文
[1]长链非编码RNA与其他表观遗传修饰的相互调控及其在自身免疫性疾病中的研究进展[J]. 陈旭,刘莹,杨安钢,王涛. 细胞与分子免疫学杂志. 2015(11)
[2]长非编码RNA研究进展[J]. 陈晓敏,张栋栋,骆健俊,陈润生. 生物化学与生物物理进展. 2014(10)
[3]长链非编码RNA生物学功能及其意义研究进展[J]. 王俊青,张彦洁,任建敏,许春娣,刘炳亚,朱正纲,周同. 生命科学. 2012(06)
本文编号:3422306
本文链接:https://www.wllwen.com/xiyixuelunwen/3422306.html
最近更新
教材专著