基于粒度空间的谱聚类方法及应用研究
本文选题:粒度空间 切入点:功率谱 出处:《江南大学》2017年硕士论文 论文类型:学位论文
【摘要】:本文基于粒度空间理论,通过功率谱提取蛋白质特征进行了基于粒度空间的谱聚类方法及应用研究。基于经典HP模型以及类内差异和类间差异获取数据分层结构的优化聚类指标,进一步建立最优聚类模型,对流感病毒H1N1、动物线粒体脱氢酶亚基等蛋白质的特性进行分析,为基于大数据的信息处理提供一整套全新的处理方法。进行如下工作:第二章中采用分层聚类及熵的评价方法进行基于功率谱的蛋白质序列特征提取新方法研究,首先基于经典的HP模型进行了氨基酸序列的数值序列表达;其次,采用离散傅里叶变换方法获取蛋白质序列的特征频谱,构造12维特征向量;最后利用分层聚类法获取分层结构。通过选取的19条动物线粒体脱氢酶亚基1、亚基4与11条?珠蛋白等三组数据进行试验比较。第三章在第二章的基础上,基于经典HP模型和功率谱提取蛋白质特征,采用分层聚类方法进行流感病毒蛋白质序列结构分析。将编码流感病毒蛋白质氨基酸序列中的20种氨基酸分为4类,结合离散的傅里叶变换画出氨基酸序列在频率域上得到的特征频谱,求出流感病毒序列特征向量,最后利用谱聚类法获取分层结构。对流感病毒进行了分析,讨论蛋白质序列之间的相似性。第四章基于粒度空间理论研究谱聚类分析方法并建立了提取最优层次结构的模型。应用本文提出的最优层次结构模型和算法构建了流感病毒蛋白系统的第一级结构和第二级结构,基于距离中心最近的原理建立了签名病毒选取优化模型,提取病毒蛋白标签,并构建出流感病毒H1N1的核心进化树。且根据建立的距离中心最近原则构建分类器以检验本文方法的有效性。分析发现,挑选出的标签病毒蛋白可以有效近似整个病毒系统。
[Abstract]:Based on the theory of granularity space, The spectral clustering method based on granularity space and its application are studied by extracting protein features from power spectrum. Based on the classical HP model and intra-class and inter-cluster differences, the optimized clustering indexes of hierarchical structure of data are obtained. An optimal cluster model was established to analyze the characteristics of proteins such as influenza virus H1N1 and mitochondrial dehydrogenase subunits of animals. This paper provides a new set of methods for information processing based on big data. The main work is as follows: in the second chapter, a new method of protein sequence feature extraction based on power spectrum is studied by using hierarchical clustering and entropy evaluation method. Firstly, the amino acid sequences are expressed numerically based on the classical HP model; secondly, the characteristic spectrum of protein sequences is obtained by discrete Fourier transform (DFT), and the 12-dimensional eigenvector is constructed. Finally, the stratified structure was obtained by stratified clustering method. Through the selection of 19 animal mitochondrial dehydrogenase subunits 1, 4 and 11? The third chapter is based on the classical HP model and the power spectrum to extract the protein features on the basis of the second chapter. A hierarchical clustering method was used to analyze the sequence structure of influenza virus protein. Twenty amino acids encoding amino acid sequence of influenza virus protein were classified into 4 groups. Combined with discrete Fourier transform, the characteristic spectrum of amino acid sequence in frequency domain is drawn, and the characteristic vector of influenza virus sequence is obtained. Finally, the hierarchical structure of influenza virus is obtained by spectral clustering method. The similarity between protein sequences is discussed. Chapter 4th studies spectral cluster analysis method based on granularity space theory and establishes a model for extracting optimal hierarchical structure. The optimal hierarchical structure model and algorithm proposed in this paper are used to construct the model. The first and second structure of the influenza virus protein system, Based on the principle of the nearest distance to the center, the optimization model of virus selection is established, and the virus protein tag is extracted. The core evolutionary tree of influenza virus H1N1 was constructed and the classifier was constructed according to the principle of nearest distance center to verify the effectiveness of the method. The analysis shows that the selected tag virus protein can effectively approximate the whole virus system.
【学位授予单位】:江南大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q51;TP311.13
【相似文献】
相关期刊论文 前8条
1 郭昆;张岐山;;基于灰关联分析的谱聚类[J];系统工程理论与实践;2010年07期
2 袁可红;黄士国;王德运;郭海湘;;一种基于谱聚类分析的粒子群聚类算法[J];数学杂志;2013年05期
3 张彪;顾明亮;王侠;;谱聚类在汉语方言辨识中的应用[J];徐州师范大学学报(自然科学版);2010年03期
4 蒋伟进;许宇晖;王欣;;基于成对约束的主动学习半监督谱聚类[J];系统科学与数学;2013年06期
5 徐步东;;基于谱聚类的社团发现算法[J];潍坊工程职业学院学报;2013年04期
6 张振宇;张珍;杨文忠;吴晓红;;复杂网络中重叠社区检测[J];计算机工程与科学;2013年12期
7 高尚兵;周静波;严云洋;;一种新的基于超像素的谱聚类图像分割算法[J];南京大学学报(自然科学版);2013年02期
8 ;[J];;年期
相关博士学位论文 前3条
1 刘璐;基于联合域聚类和稀疏表示的极化SAR图像分类[D];西安电子科技大学;2015年
2 杨艺芳;谱聚类与维数约简算法及其应用[D];西安电子科技大学;2016年
3 孔敏;关联图的谱分析及谱聚类方法研究[D];安徽大学;2006年
相关硕士学位论文 前10条
1 陈昭彤;基于拓扑势和谱聚类的社区发现研究[D];中国矿业大学;2015年
2 张吉文;基于谱聚类的文本聚类算法研究[D];贵州大学;2015年
3 李伟龙;基于面向对象SVM和谱聚类的极化SAR分类[D];西安电子科技大学;2014年
4 崔竹冬;基于谱聚类的三维血管点云分割技术研究[D];哈尔滨工业大学;2016年
5 崔海玉;基于谱聚类的域间社区挖掘算法研究[D];大连海事大学;2016年
6 付刚;基于谱聚类的混合流形学习算法研究[D];安徽理工大学;2016年
7 林珍香;基于谱聚类的个性化推荐系统研究[D];福建农林大学;2016年
8 梁启浩;基于粒度空间的谱聚类方法及应用研究[D];江南大学;2017年
9 何心琪;基于谱聚类的水声图像分割技术研究[D];哈尔滨工程大学;2013年
10 赵冬琴;基于谱聚类的MCI影像学分类特征研究与应用[D];太原理工大学;2014年
,本文编号:1583975
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/1583975.html