基于拉丁美洲国家数据的高维多元可视分析
发布时间:2021-09-06 10:43
国家的研究涉及复杂数据,设计一个可视化系统进行国家研究具有重要意义。本文基于世界银行关于拉丁美洲及加勒比地区17个国家19602016年期间1441项数据,研究高维多元数据的可视化方法,设计了国家可视分析模型和可视分析系统。本文的主要工作主要体现在以下三个方面:1.对拉丁美洲国家数据的属性的多层次特征进行构建。高维多元数据属性过多,会造成人工筛选任务负担过重的问题,因此,利用文本分类对数据集的属性进行层次构建,方便用户快速筛选数据子集同时提供数据整个维度的概览。2.对拉丁美洲国家数据进行维度空间探索模型构建。针对高维数据中蕴含重要信息且会被无关信息干扰的问题,同时从属性和数据对象两个角度完成对数据维度空间的探寻。首先,利用基于子空间聚类的高维多元数据处理的3种方法(特征选择、子空间探索、子空间聚类算法)相结合的方式从属性的角度来分析拉丁美洲国家数据。采用特征选择方法在原始维度空间选择出合适的特征子集后,利用子空间聚类算法对特征子集进行分组成簇,再将子空间探索方法结合可视分析来辅助用户发现新的兴趣子空间。接着在重构的局部子空间中从数据对象的角度,利用基于密度峰值的快...
【文章来源】:西南科技大学四川省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
基于子空间聚类的高维多元数据可视过程
相关理论11=min:>()(2-4)计算出样本点密度ρ和与最近的较高密度点的距离δ两个参数后,以样本点密度ρ为y轴,距离δ为x轴画出决策图,如图2-2(a)所示。该算法中,具有较大局部密度和高局部密度距离δ两个特征的样本点为聚类中心。在决策图2-2(a)中,1和10两个样本点为聚类中心。高局部密度距离δ较大,但局部密度却很小的样本点被认为是离散点,在图2-2(a)的离散点为28、26和27三个样本点。数据在二维空间的分布特征如图2-2(b)所示,离散点明显也是28、26和27三个样本点,其他的样本点则以离簇中心最近的距离进行分类。如图2-2(b)所示,观察到原始数据围绕已知的两个聚类中心1和10分布,最后被分成了两类。图2-2决策图和二维空间的数据分布Figure2-2Decisiongraphanddatadistributionintwo-dimensionalspace
西南科技大学硕士学位论文123拉丁美洲国家数据的多层次特征模型构建3.1数据介绍拉丁美洲国家数据是典型的高维多元数据,故用其作为本文研究的基础数据。该数据来源于WorldBank,可从其中获取世界各国的发展数据和指标,是各研究员研究特定问题获取数据的主要方式之一。从WorldBank中获得的拉丁美洲国家数据是拉丁美洲研究员分析研究拉丁美洲具体问题的主要数据,该数据中包含了1960~2016年这个时间段内拉丁美洲及加勒比地区17个国家的数据,其中每个国家有1441个属性,例如:农业机械数量、国外直接投资(BoP,现价美元)、在职儿童比例等国家数据多个方面的属性。其数据结构如表3-1所示。表3-1拉丁美洲国家数据结构表Table3-1DatastructureofLatinAmericancountries字段描述样例countryname国家名称“Argentina”Year年份“1960”Attribute_id属性名称“Agriculturalmachinery,tractors”Attribute_value属性值“5200”拉丁美洲国家数据集部分数据如图3-1所示:图3-1部分拉丁美洲国家数据Figure3-1DataforsomeLatinAmericancountries
【参考文献】:
期刊论文
[1]基于子空间聚类的高维数据可视分析方法综述[J]. 田帅,陈谊. 计算机工程与应用. 2018(13)
[2]一种基于维度投影的多维数据相关性可视分析方法[J]. 陈谊,张聪. 计算机辅助设计与图形学学报. 2018(04)
[3]多维视角下的拉美贫困及扶贫政策[J]. 吴孙沛璟,赵雪梅. 拉丁美洲研究. 2016(03)
[4]拉美一体化的多层次发展及其效应[J]. 蒲俜. 拉丁美洲研究. 2016(03)
[5]可视化驱动的交互式数据挖掘方法综述[J]. 马昱欣,曹震东,陈为. 计算机辅助设计与图形学学报. 2016(01)
[6]巴西城市化进程及其启示[J]. 吴国平,武小琦. 拉丁美洲研究. 2014(02)
[7]数据降维方法分析与研究[J]. 吴晓婷,闫德勤. 计算机应用研究. 2009(08)
[8]一种改进的基于VSM的文本分类算法[J]. 张彰,樊孝忠. 计算机工程与设计. 2006(21)
博士论文
[1]高维数据的降维理论及应用[D]. 谭璐.国防科学技术大学 2005
本文编号:3387311
【文章来源】:西南科技大学四川省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
基于子空间聚类的高维多元数据可视过程
相关理论11=min:>()(2-4)计算出样本点密度ρ和与最近的较高密度点的距离δ两个参数后,以样本点密度ρ为y轴,距离δ为x轴画出决策图,如图2-2(a)所示。该算法中,具有较大局部密度和高局部密度距离δ两个特征的样本点为聚类中心。在决策图2-2(a)中,1和10两个样本点为聚类中心。高局部密度距离δ较大,但局部密度却很小的样本点被认为是离散点,在图2-2(a)的离散点为28、26和27三个样本点。数据在二维空间的分布特征如图2-2(b)所示,离散点明显也是28、26和27三个样本点,其他的样本点则以离簇中心最近的距离进行分类。如图2-2(b)所示,观察到原始数据围绕已知的两个聚类中心1和10分布,最后被分成了两类。图2-2决策图和二维空间的数据分布Figure2-2Decisiongraphanddatadistributionintwo-dimensionalspace
西南科技大学硕士学位论文123拉丁美洲国家数据的多层次特征模型构建3.1数据介绍拉丁美洲国家数据是典型的高维多元数据,故用其作为本文研究的基础数据。该数据来源于WorldBank,可从其中获取世界各国的发展数据和指标,是各研究员研究特定问题获取数据的主要方式之一。从WorldBank中获得的拉丁美洲国家数据是拉丁美洲研究员分析研究拉丁美洲具体问题的主要数据,该数据中包含了1960~2016年这个时间段内拉丁美洲及加勒比地区17个国家的数据,其中每个国家有1441个属性,例如:农业机械数量、国外直接投资(BoP,现价美元)、在职儿童比例等国家数据多个方面的属性。其数据结构如表3-1所示。表3-1拉丁美洲国家数据结构表Table3-1DatastructureofLatinAmericancountries字段描述样例countryname国家名称“Argentina”Year年份“1960”Attribute_id属性名称“Agriculturalmachinery,tractors”Attribute_value属性值“5200”拉丁美洲国家数据集部分数据如图3-1所示:图3-1部分拉丁美洲国家数据Figure3-1DataforsomeLatinAmericancountries
【参考文献】:
期刊论文
[1]基于子空间聚类的高维数据可视分析方法综述[J]. 田帅,陈谊. 计算机工程与应用. 2018(13)
[2]一种基于维度投影的多维数据相关性可视分析方法[J]. 陈谊,张聪. 计算机辅助设计与图形学学报. 2018(04)
[3]多维视角下的拉美贫困及扶贫政策[J]. 吴孙沛璟,赵雪梅. 拉丁美洲研究. 2016(03)
[4]拉美一体化的多层次发展及其效应[J]. 蒲俜. 拉丁美洲研究. 2016(03)
[5]可视化驱动的交互式数据挖掘方法综述[J]. 马昱欣,曹震东,陈为. 计算机辅助设计与图形学学报. 2016(01)
[6]巴西城市化进程及其启示[J]. 吴国平,武小琦. 拉丁美洲研究. 2014(02)
[7]数据降维方法分析与研究[J]. 吴晓婷,闫德勤. 计算机应用研究. 2009(08)
[8]一种改进的基于VSM的文本分类算法[J]. 张彰,樊孝忠. 计算机工程与设计. 2006(21)
博士论文
[1]高维数据的降维理论及应用[D]. 谭璐.国防科学技术大学 2005
本文编号:3387311
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3387311.html
最近更新
教材专著