基于基因表达微阵列数据集的加权双向聚类算法研究
发布时间:2017-10-18 01:28
本文关键词:基于基因表达微阵列数据集的加权双向聚类算法研究
更多相关文章: 基因表达数据 数据挖掘 基因调控网络 双向聚类算法 验证指标
【摘要】:随着生物信息技术的迅速发展,基因芯片技术在生物界领域有了明显的进展,它不仅反映了当前细胞生理状态以及基因之间的相关性,而且对于癌症亚型的识别、药物靶点的检测、药物疗效的诊断以及揭示疾病发生机制等领域起到至关重要的作用,因此基于基因表达微阵列数据的一些相关研究是生物技术领域的核心.基于基因表达微阵列数据的分析方法一般是利用聚类方法来挖掘矩阵中所隐藏的重要信息.由于基因表达数据具有双向关联的特性,所以传统的聚类算法在基因表达数据的研究中就受到了一定的局限,传统的聚类算法只能单一对行或列进行聚类从而找出基因表达矩阵的全局信息,而最终却忽略了其中重要的局部信息,因此一般的聚类算法没有办法精确地映射出基因与条件之间的紧密关系.本文主要针对一般聚类方法的不足,提出了基于基因表达数据无监督的加权双向聚类算法,具体做了以下几项工作:首先,利用最小生成森林法生成了基因调控网络.而根据基因调控网络中基因的重要性给每一个基因分配相应的权重.其次,在基因生成网络的基础上提出了加权的双向聚类算法.最后,针对于已有的验证指标,即平均残差(ASR指标)进行了改进,然后将改进的指标与已提出的指标进行比较,最终确定了最优的聚类个数.并且我们将该方法应用到乳腺癌和青少年类风湿性关节炎两组数据上,实例表明本论文所提出的加权双向聚类算法具有很好的聚类效果.
【关键词】:基因表达数据 数据挖掘 基因调控网络 双向聚类算法 验证指标
【学位授予单位】:黑龙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4;TP311.13
【目录】:
- 中文摘要4-5
- Abstract5-8
- 第1章 绪论8-12
- 1.1 课题的研究背景及意义8-9
- 1.2 国内外的研究现状9-11
- 1.3 本文研究的内容和结构11-12
- 第2章 基因生成网络12-19
- 2.1 常见的基因生成网络方法12-16
- 2.1.1 基于原始数据的基因生成网络12
- 2.1.2 基于表达数据的基因生成网络12-16
- 2.1.3 小结16
- 2.2 最小生成森林法16-18
- 2.2.1 Chow-Liu树16-17
- 2.2.2 最小生成森林法17-18
- 2.3 本章小结18-19
- 第3章 加权双向聚类算法19-32
- 3.1 双向聚类算法的简介19-22
- 3.2 加权双向聚类算法22-28
- 3.2.1 给基因分配权重22
- 3.2.2 非负矩阵分解22-25
- 3.2.3 加权双向聚类算法25-28
- 3.3 双向聚类算法的验证指标28-31
- 3.3.1 平均残差(ASR指标)29
- 3.3.2 平均相关指标(ACV指标)29
- 3.3.3 PBM指标29-30
- 3.3.4 Γ指标30-31
- 3.3.5 MNSR指标31
- 3.4 本章小结31-32
- 第4章 实验结果及分析32-42
- 4.1 数据来源32-33
- 4.2 数据处理过程33-35
- 4.3 实验结果与分析35-41
- 4.3.1 乳腺癌数据35-38
- 4.3.2 青少年类风湿性关节炎38-41
- 4.4 本章小结41-42
- 结论42-44
- 参考文献44-51
- 致谢51-52
- 攻读学位期间发表的学术论文52
【相似文献】
中国期刊全文数据库 前1条
1 雷于生,任恕,粟载福;KDD技术及其在基因表达微阵列数据中的应用[J];国外医学(分子生物学分册);2000年06期
中国硕士学位论文全文数据库 前2条
1 王志玲;基于基因表达微阵列数据集的加权双向聚类算法研究[D];黑龙江大学;2016年
2 邹央云;基于混合线性模型框架的基因表达微阵列数据统计分析方法研究[D];浙江大学;2006年
,本文编号:1052175
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1052175.html
最近更新
教材专著