基于t-SNE的氨基酸聚类分析
本文关键词:基于t-SNE的氨基酸聚类分析
【摘要】:生物大分子模拟在生物研究领域中具有重要作用。如今,量子化学计算和分子动力学模拟在生物分子理论计算领域广为应用。对于分子力学来说,力场的构建尤为重要。基于分子力场,可以展开蒙特卡洛计算以及分子动力学模拟。分子力场的构建需要使用大量的分子构象、能量、电荷分布等物理化学信息。本文工作即是为了构建蛋白质力场而进行大规模模拟计算并聚类分析进而得到一套具有代表性且具有一定可用性的数据集。在蛋白质选取方面,考虑到蛋白质的生物环境,对蛋白质多种复合物进行选择以保证其一般性。然后进行动力学模拟得到蛋白质轨迹,并借鉴MFCC分块法思想从中提取出大量的氨基酸构象。在对氨基酸提取的过程当中,采用了独特的氨基酸片段两端处理办法。经过分块处理,初步提取出20种氨基酸的构象、能量、电荷分布等信息以构成原始数据集。原始数据集信息量庞大,数据重复性较高,每种特征量所占权重各有不同。为了将氨基酸原始数据集简化,同时又不失其采样数据的全面性,由此引用一种新的聚类方法,即t-SNE分布耦合降维算法。通过构建低维空间数据,同时最小化在低维空间中的数据分布与高维空间中的数据分布之间的Kullback-Leisler差异,得到其在低维空间(可视的二维或三维空间)中的降维数据,使得其氨基酸聚类相比于常用的K-均值聚类更加具有卓越的分析效果,以便于对原始数据集进行有效合理地提取和利用。在构建力场,快速得到生物蛋白质分子精确的物理化学性质等方面具有重要意义。
【关键词】:氨基酸 MFCC t-SNE 聚类 降维
【学位授予单位】:辽宁师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:O629.7
【目录】:
- 摘要4-5
- Abstract5-8
- 第一章 引言8-18
- 1.1 分子模拟8-12
- 1.1.1 分子力场8-10
- 1.1.2 分子动力学模拟10-11
- 1.1.3 分子力学的局限性11-12
- 1.2 量子化学计算12-16
- 1.2.1 量子化学简介12-13
- 1.2.2 玻恩-奥本海默近似13
- 1.2.3 中心场近似13-14
- 1.2.4 基组14
- 1.2.5 量子化学的线性规模计算方法14-16
- 1.2.6 结合MFCC的氨基酸聚类分析16
- 1.3 机器学习与聚类分析16-18
- 1.3.1 机器学习简介16-17
- 1.3.2 主成分分析法17
- 1.3.3 K-均值法17
- 1.3.4 t-SNE聚类法17-18
- 第二章 氨基酸构象数据库的建立18-37
- 2.1 蛋白质复合物在GROMACS下的动力学模拟18-27
- 2.1.1 蛋白质的选取18-20
- 2.1.2 预处理工作20-21
- 2.1.3 构象能量优化21-24
- 2.1.4 NVT系综下的模拟24
- 2.1.5 NPT系综下的模拟24
- 2.1.6 GROMACS动力学模拟24
- 2.1.7 MD结果数据分析24-27
- 2.2 MFCC分块操作27-34
- 2.2.1 MFCC分块法简介27-28
- 2.2.2 本文对MFCC分块法思想的应用28-33
- 2.2.3 对四种蛋白质的分割与提取33-34
- 2.3 Gaussian量子化学计算34
- 2.4 氨基酸原始特征数据的建立34-37
- 2.4.1 操作过程简介34-36
- 2.4.2 原始特征数据建立的意义36-37
- 第三章 基于t-SNE的分子构象聚类37-46
- 3.1 t-SNE聚类方法简述37-40
- 3.2 氨基酸原始数据基于t-SNE的降维处理过程40-41
- 3.3 t-SNE聚类方法的应用效果讨论41-46
- 3.3.1 聚类效果可视化41-45
- 3.3.2 t-SNE与其它聚类方法的效果比较45-46
- 结论46-48
- 参考 文献48-51
- 附录A 相关代码示例51-54
- 攻读硕士学位期间发表学术论文情况54-55
- 致谢55
【相似文献】
中国期刊全文数据库 前10条
1 陈华豪;;聚类分析[J];林业勘查设计;1981年02期
2 刘昆元;;聚类分析法及其在分析化学中的应用[J];分析化学;1985年09期
3 计维浓,杨君明;太湖流域主要粮食作物和有关土壤中若干元素的聚类分析[J];农业环境科学学报;1986年06期
4 许庆华;聚类分析在磷块岩风化矿判别中的应用[J];化工矿山技术;1991年03期
5 陈燕国;蔡少华;;应用聚类分析对水库营养类型分类和0—1高指标判别方法[J];湖泊科学;1993年03期
6 袁建美;聚类分析法在学生成绩评估中的应用[J];石油大学学报(自然科学版);1998年01期
7 黄盛初,周心权,赵爱国;安全生产发展规律聚类分析[J];中国煤炭;2005年11期
8 何永政;我国不同省区棉花色特征的聚类分析[J];中国纤检;2005年02期
9 陈淑君;陡河水污染研究——聚类分析—最短距离法在水污染研究中的应用[J];环境科学丛刊;1984年08期
10 叶茂华;胡继岳;陆启芳;;应用电子计算机对水质检验指标的聚类分析[J];环境科学动态;1985年07期
中国重要会议论文全文数据库 前10条
1 梅翠;;我国各地区居民收入差距及其对消费的制约[A];中国现场统计研究会第12届学术年会论文集[C];2005年
2 李均立;傅国华;;海南各县(市)经济实力的聚类分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 刘黄金;曹林峰;;南京服务业发展的聚类分析[A];江苏省现场统计研究会第十次学术年会论文集[C];2006年
4 肖静;杨泽峰;徐辰武;;微阵列表达谱监督聚类分析方法的比较研究[A];江苏省遗传学会第七届代表大会暨学术研讨会论文摘要汇编[C];2006年
5 路爱峰;崔玉杰;;沪市电力上市公司经营业绩的聚类分析[A];中国数学力学物理学高新技术交叉研究学会第十二届学术年会论文集[C];2008年
6 陈国华;廖小莲;夏君;;证券投资分析的聚类分析方法[A];中国企业运筹学[2011(1)][C];2011年
7 张红卫;隗金水;;聚类分析评价与测量效度关系探讨[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
8 牛东晓;乞建勋;;网络资源平衡问题的聚类分析优化遗传算法研究[A];2001年中国管理科学学术会议论文集[C];2001年
9 詹原瑞;彭书杰;李如一;;基于聚类分析的企业信用等级评价方法[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
10 邹晓玫;修春波;;基于聚类分析的犯罪率相关因素的研究[A];当代法学论坛(二○一○年第3辑)[C];2010年
中国博士学位论文全文数据库 前4条
1 张建萍;基于计算智能技术的聚类分析研究与应用[D];山东师范大学;2014年
2 李成安;分布式环境下聚类分析新方法的研究[D];浙江大学;2006年
3 杨旭杰;基于统计方法模型分析的中药复方专利保护研究[D];北京中医药大学;2012年
4 李宝玲;王裕颐教授学术思想与临床经验总结及治疗眩晕证治规律研究[D];北京中医药大学;2012年
中国硕士学位论文全文数据库 前10条
1 李元俊;大学生就业能力培养与社会需求的匹配性研究[D];山东建筑大学;2015年
2 冯雪冰;基于模糊理论的EM算法在聚类分析的应用研究[D];中国地质大学(北京);2015年
3 黄银;行业地区发展水平的聚类分析[D];苏州大学;2015年
4 郭俊峰;聚类分析下的股票投资价值挖掘研究[D];大连海事大学;2015年
5 张旭;考虑风电接入不确定性的节点特性建模研究[D];山东大学;2015年
6 褚旭;我国各省市CDM项目聚类分析及影响因素研究[D];首都经济贸易大学;2015年
7 刘鑫琳;VAGUE集理论及其在聚类分析中的应用[D];广西大学;2015年
8 周颖;基于蚁群算法的聚类分析在学生成绩中的研究[D];南昌大学;2015年
9 邢蕊;以聚类分析为基础的我国证券公司效率研究[D];山西大学;2015年
10 王帅宇;K-Means算法在用户细分方面的应用研究[D];北京理工大学;2015年
,本文编号:1005947
本文链接:https://www.wllwen.com/kejilunwen/huaxue/1005947.html