当前位置:主页 > 理工论文 > 生物学论文 >

基于模型的聚类在蛋白质分类研究中的应用

发布时间:2020-10-12 01:50
   聚类分析作为数据挖掘的重要组成部分,在各个研究领域都发挥着极大的作用,近年来更受到了高度的重视。了解并掌握其原理,将其妥善运用在各种数据分析中是十分必要的。作为聚类的重要方法,基于模型的聚类已经被广泛用于聚类应用中,包括手写识别、文本聚类、图像分割等多个领域。生物信息学近年来得到了极大的发展,作为其中重要的组成部分,蛋白质序列数据的研究也成为了人们关注的重点。鉴于此,本文将基于模型的聚类方法应用在蛋白质序列的分类研究上,以弥补前人常用聚类方法的不足,注入新的思想。本文首先回顾了基于模型的聚类方法的发展历程和国内外学者的研究成果。随后重点阐述了聚类分析的理论知识:简要介绍了聚类分析的含义,详细总结了目前聚类常用的经典算法、高级算法和多源数据算法的内涵,着重阐释了基于模型的聚类方法所涉及的混合模型、参数估计的期望最大化算法和模型选择准则方面的理论知识,并简单分析了基于模型的聚类方法存在的优势和局限性,最后总结了当前聚类分析的实际应用情况。接下来,利用多种具体方法,建立不同的模型,进行参数估计,从而对蛋白质序列进行分类研究。将聚类分析的理论运用在了一个预测蛋白质定位位点的具体实例中:该数据集包含1484个酵母氨基酸序列,共有8个属性变量,10个具体的定位位点。采用k-均值法和基于模型的聚类方法对问题进行处理和分析,其中k-均值法以聚为5类和聚为8类加以说明,基于模型的聚类方法则分别运用基于高斯混合模型法(mclust)、子空间聚类法(hddc)和混合法(Rmixmod)进行运算并得到结果。最后,将理论结果与实际含义相结合,对不同方法的运算结果进行详细的探讨并加以评判。首先,可以清楚地看到,基于模型的聚类方法对蛋白质序列做分类可以得到比较好的效果:分类清晰,各类之间差异显著,类的含义更具有代表性;在聚类的簇的个数选择方面有明确的理论支持;以概率形式对每一类进行表示,每一类的特征也可以用相应的参数来表达,将类别问题转化为最优化模型的问题,在对每一类的性质进行更专业的研究时,可以更好地应用统计的思想和方法,提供一种新的思路。其次,基于模型的聚类方法与k-均值法相比,也有明确的优势:它很好地弥补了k-均值法在聚类个数选择上的欠缺,分类结果的代表性也更为明确和合理。再次,为了从基于模型的聚类方法中选出最为合适的聚类算法,采用了三种不同的具体方法,通过比较这三种方法的结果,针对这一具体问题,基于高斯混合模型法和混合法所得结果比子空间聚类法更为合理,且基于高斯混合模型法操作起来更为简便,对于初学者来说也更容易理解。可以说,基于模型的聚类方法,为相关问题的研究提供了一个新的思路和发展方向,相信在生物信息学领域会有很好的应用前景。
【学位单位】:云南财经大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:Q51;TP311.13
【部分图文】:

分布情况,箱线图,四分位数


聚类分析在蛋白质分类中的应用表 3.1 各变量描述统计量变量计量Mcg Gvh Alm Mit Erl pox vac n均值 0.5001 0.4999 0.5000 0.2612 0.5047 0.0075 0.4999 0.2最小值 0.1100 0.1300 0.2100 0 0.5000 0 0 四分位数 0.4100 0.4200 0.4600 0.1700 0.5000 0 0.4800 0.2中位数 0.4900 0.4900 0.5100 0.2200 0.5000 0 0.5100 0.2四分位数 0.5800 0.5700 0.5500 0.3200 0.5000 0 0.5300 0.3最大值 1 1 1 1 1 0.8300 0.7300 标准差 0.1373 0.1239 0.0867 0.1371 0.0484 0.0757 0.0578 0.1箱线图如下图 3.1 所示,从箱线图可以看出各变量的大致分布情况,箱形条横线由下到上分别代表下四分位数、中位数和上四分位数。

示意图,高斯混合模型


30图 3.2 簇个数 1-9 的 14 种高斯混合模型的 BIC 值从表 3.4 和图 3.2 中可以明显看出,EEV 模型聚成 5 个簇的情况(图 3.2 中紫色方框十字),BIC 值最大,为 39181.05,根据前述 BIC 准则,选择该模型作为聚类使用的混合模型。此外,还可以画出以下三个关于不同特征组合的分类、不确定性和密度函数的示意图。

示意图,示意图


不同特征组合得到的分类示意图
【相似文献】

相关期刊论文 前10条

1 魏铁华;相似事物的聚类方法[J];成组生产系统;1988年01期

2 盛利元;三次重组聚类方法[J];数学的实践与认识;1988年03期

3 李成智,陈继东,丁瑞云;应用逐步聚类法进行六安地区马尾松苗木分级[J];浙江林业科技;1988年02期

4 蒋佐升;作物育种中三种聚类方法的比较分析[J];湖南农学院学报;1988年01期

5 张力;胡先菊;;模糊目标函数聚类法在种源研究中的应用[J];贵州农学院学报;1988年01期

6 俞世蓉;郭蔼平;;基因型聚类的终止判据[J];生物数学学报;1988年01期

7 张鹄藻;机械零件的包容聚类法[J];成组生产系统;1989年02期

8 华尧楠,华崇钊;Fuzzy综合评估聚类法分区预报二代棉铃虫发生量[J];山东农业科学;1989年04期

9 杨继龙;陈曦;杨伟康;张琼文;;基于谱系聚类法的用户击键特征识别[J];电脑编程技巧与维护;2010年04期

10 郑鹏;李金铭;赖晓燕;赵艳萍;王霞;;主成分分析法与逐步聚类法在树种分类中的应用[J];福建电脑;2006年02期


相关博士学位论文 前3条

1 周瑞红;基于群智能优化理论的聚类改进方法及应用研究[D];吉林大学;2017年

2 杭文龙;有监督智能聚类与分类技术及其应用研究[D];江南大学;2017年

3 殷瑞飞;数据挖掘中的聚类方法及其应用[D];厦门大学;2008年


相关硕士学位论文 前10条

1 赵杨;基于KQPSO聚类的股票投资价值分析[D];中国石油大学(北京);2018年

2 张盛;基于评价对象抽取的影视剧评论聚类研究[D];上海交通大学;2016年

3 朱乐为;模糊C-means聚类算法的拓展研究[D];云南师范大学;2019年

4 王星;基于矩阵分解的多聚类算法研究[D];西南大学;2019年

5 陆叶;我国区域经济发展水平的动态分析[D];杭州电子科技大学;2018年

6 曹延姗;基于模型的聚类在蛋白质分类研究中的应用[D];云南财经大学;2019年

7 郭旭东;基于深度学习和半监督聚类的入侵检测技术研究[D];宁夏大学;2019年

8 夏典;经典葡萄酒数据集的聚类、降维及可视化实证研究[D];云南师范大学;2019年

9 沈涵生;基于WIFI信号特征的聚类过滤定位算法研究[D];浙江科技学院;2019年

10 卞汛;基于Spark的分布式聚类算法研究及其在社交媒体分析中的应用[D];北京邮电大学;2018年



本文编号:2837454

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2837454.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户287fa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com