高维数据降维可视化研究及其在生物医学中的应用

发布时间:2018-11-12 15:17
【摘要】:计算机技术、信息技术以及存储技术的快速发展,为我们采集、处理与存储所获取的海量、高维、非结构化的数据提供了极大的便利。而随着信息大爆炸时代的到来,我们接触到的数据已经不再以数值型数据为主,更多的是文本数据、图像数据、以及多媒体数据等非数值型数据。数据可视化所面向的数据对象由传统的数值型数据扩展为多来源、多维度和多尺度的复杂数据集合,这些新的数据特点对高维数据可视化方法的研究和应用带来了更高的要求和更大的挑战。降维技术与可视化技术相结合,不但是处理高维数据,克服“维数灾难”,实现数据可视化的重要途径,并且作为数据预处理的一种方式,为进一步深入研究数据的模式与关系提供直观的分析基础。具体地来说,降维可视化技术利用线性或非线性降维方法将高维数据投影到低维空间,以人们可以理解的可视化方式,直观地呈现数据中的模式与信息,从而有效的帮助人们从海量数据中挖掘出有用信息和知识。通过对目前降维可视化方法进行对比和分析发现,由于数据的复杂性与多样性,以及现有降维可视化算法各自的优缺点,没有一种降维可视化算法适用于所有的数据集。从可视化角度来看,目前已有的降维可视化算法主要存在以下三个局限性: (1)将高维数据投影至二维空间后,二维空间样本点的分布或保持了高维数据的全局特性,或保持了高维数据的局部特性; (2)由于度量空间的限制,将降维可视化结果呈现在单一的二维映射图中,则不能准确地呈现大部分真实数据的结构和关系,如生物医学中的疾病表型数据。因为不同的疾病可能呈现出相同的表型,而相同的表型则有可能对应着不同的疾病,经降维可视化处理之后,二维空间中样本点的分布关系并不能全面且完整地呈现出疾病与表型之间的关系;(3)大部分降维可视化算法对于数据间相似性的度量,主要基于数据间的距离。当处理海量高维数据时,计算样本点之间距离的效率会非常低。围绕上述三个局限性,本文从非线性降维方法中的流形学习方法为出发点,即假设样本点是均匀分布高维空间的低维流形曲面上。利用图结构对数据中的几何结构进行建模,将基于几何技术的可视化方法有机的结合在一起,针对不同数据集的特性,提出三种降维可视化方法,并以不同特性的生物医学数据为例,将生物医学高维数据直接投影到二维可视化空间,使用户没有与数据相关专业背景的前提下,也能参与到降维可视化的过程中,发掘数据清晰的结构与模式,为进一步深入研究数据提供可视化依据。本文研究内容与研究成果如下:(1)提出一种基于拉普拉斯正则化的随机近邻嵌入算法(LA2SNE).该算法利用拉普拉斯分布的胖尾特征,分别计算高维空间与低维空间样本点之间的概率分布,取代传统计算样本点之间欧氏距离的方法,从而避免样本点在二维投影空间过度重叠。利用对称Kullback-Leibler散度最小化高维数据分布与低维数据分布之间的差异,从而使低维可视化空间中的样本点的分布能够更好地保持高维数据的全局结构。通过构建高维空间拉普拉斯矩阵作为正则化项,通过调节惩罚系数,使可视化空间数据分布的内部结构更加分明,相同的点聚类效果更加明显。将该方法分别应用在模拟数据瑞士卷(Swissroll)和人类微生物组数据上,并对可视化结果进行量化分析,其结果证明所提出的LA2SNE方法对于模拟数据和真实数据都能够有很好的可视化结果。(2)提出一种基于流形正则化的多映射图的可视化方法(L-mm t-SNE),将传统的单一映射图可视化结果投影到多个映射图中。该方法解决了传统度量空间所不能解决的“共现”问题,对于“疾病——表型”数据集,不同的疾病所呈现出的症状可能非常相似,因此L-mm t-SNE引入流形正则化项,使得数据集中局部相似的点更加紧凑,不相似的点则分布到不同的映射图中。并且样本点权重大的更倾向于聚类在一个映射图,从而减少了映射图的数量。实验结果表明,L-mm t-SNE可以利用较少的二维映射图可视化具有“共现"特征的数据集,其可视化结果具有很好的解释。(3)提出一种快速降维可视化方法。该方法首先利用双流形正则化的非负矩阵分解对数据进行预降维,降维后的子空间保持了原始空间中数据的主要特征,接着利用VP树方法,通过查找“最优点”,对数据集进行近邻点的搜索;然后根据概率距离计算近邻点之间的相似度;最后利用KL散度将子空间数据投影到可视化空间。与传统可视化方法相比,本文所提出的方法对海量微生物组高维数据的可视化结果能够很好地表达原始数据的结构,在降低可视化时间复杂度上具有显著的效果。
[Abstract]:......
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.41

【相似文献】

相关期刊论文 前10条

1 贺玲;蔡益朝;杨征;;高维数据空间的一种网格划分方法[J];计算机工程与应用;2011年05期

2 李郁林;;高维数据分析中的降维研究[J];计算机光盘软件与应用;2012年17期

3 何进荣;丁立新;胡庆辉;李照奎;;高维数据空间的性质及度量选择[J];计算机科学;2014年03期

4 刘洪波,王秀坤,赵晶;高维数据空间金字塔技术研究[J];计算机工程与应用;2003年16期

5 沈萍;;高维数据挖掘技术研究[J];电脑知识与技术;2009年06期

6 谢枫平;;聚类分析中的高维数据降维方法研究[J];闽西职业技术学院学报;2009年04期

7 余元辉;邓莹;;一种新的高维数据聚类自适应算法的研究[J];沈阳化工大学学报;2010年02期

8 王寅峰;刘昊;狄盛;胡昊宇;;一种支持高维数据查询的并行索引机制[J];华中科技大学学报(自然科学版);2011年S1期

9 周勇;卢晓伟;程春田;;非规则流中高维数据流典型相关性分析并行计算方法[J];软件学报;2012年05期

10 王素芳;;基于组件的高维数据降维方法研究[J];电脑与电信;2012年10期

相关会议论文 前6条

1 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年

2 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

3 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

4 刘运涛;鲍玉斌;吴丹;冷芳玲;孙焕良;于戈;;CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

5 刘文慧;;PCA与PLS用于高维数据分类的比较性研究[A];2011年中国卫生统计学年会会议论文集[C];2011年

6 刘喜兰;冯德益;王公恕;朱成喜;冯雯;;脸谱分析在中进期地震跟踪预报中的应用[A];中国地震学会第四次学术大会论文摘要集[C];1992年

相关重要报纸文章 前1条

1 本报记者 李双艺;引领高维数据分析先河[N];吉林日报;2013年

相关博士学位论文 前10条

1 刘胜蓝;余弦度量下的高维数据降维及分类方法研究[D];大连理工大学;2015年

2 黄晓辉;高维数据的若干聚类问题及算法研究[D];哈尔滨工业大学;2015年

3 杨崇;高维数据流上的K近邻问题研究[D];山东大学;2016年

4 路梅;面向高维数据的特征学习理论与应用研究[D];苏州大学;2016年

5 徐微微;高维数据降维可视化研究及其在生物医学中的应用[D];武汉大学;2016年

6 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年

7 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年

8 吴庆耀;高维数据的若干分类问题及算法研究[D];哈尔滨工业大学;2013年

9 楼巍;面向大数据的高维数据挖掘技术研究[D];上海大学;2013年

10 黄健美;高维数据索引及其查询处理技术研究[D];东北大学;2009年

相关硕士学位论文 前10条

1 沈江炎;基于软子空间的高维数据树形索引研究[D];昆明理工大学;2015年

2 侯小丽;高维数据聚类中的神经网络降维方法研究[D];兰州大学;2015年

3 赵俊琴;基于Lasso的高维数据线性回归模型统计推断方法比较[D];山西医科大学;2015年

4 何荧;高维数据下的特征选择与聚类方法研究[D];西南大学;2015年

5 胡昌杰;基于Autoencoder的高维数据降维方法研究[D];兰州大学;2015年

6 杨代君;基于进化算法的高维数据聚类研究[D];西安电子科技大学;2014年

7 王宏霞;交通高维数据逻辑整合与降解研究[D];重庆交通大学;2015年

8 杨庭庭;基于信息熵的高维数据流聚类及其应用研究[D];重庆交通大学;2015年

9 孙喜利;高维数据的降维及聚类方法研究[D];兰州大学;2016年

10 吴佳妮;基于SVM的质谱细胞仪高维数据分析在AML早期诊断方面的应用研究[D];山东大学;2016年



本文编号:2327489

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2327489.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f89c3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com