基于成分数据的缺失值补全方法研究
发布时间:2018-06-09 19:57
本文选题:成分数据 + 缺失值 ; 参考:《山西大学》2016年硕士论文
【摘要】:成分数据是一类复杂的多维数据,主要用来研究构成某个整体的各部分的比例.成分数据近年来被广泛应用在地质学、社会结构和经济发展等方面.由于在调查中的无回答、数据收集过程的失误都会导致数据缺失,而数据缺失会影响统计数据的质量,致使增大了统计分析结果中的估计方差,从而降低统计数据的说服力.因而对缺失数据的填补变得十分为重要.本文主要针对成分数据的缺失值填补方法进行研究,对于含多重共线性的成分数据,提出了主成分分析的填补法;对于既含多重共线性又含异常值的成分数据,提出了基于MCD估计的主成分填补法.全文共分为五章:第一章,介绍了成分数据的研究背景和意义,以及缺失数据的研究现状.第二章,给出了成分数据的定义以及所属空间上的运算,其次给出了常用的三种对数比变换和球坐标变换,并回顾了常用的普通数据和成分数据的缺失数据填补法.第三章,针对含有多重共线性的成分数据,提出了单形空间上的均值填补法和基于主成分分析的填补法,并通过实例分析和实验模拟验证新提出填补方法的精准度.第四章,在第三章所提出填补法的基础上,针对含有异常值的成分数据提出了基于MCD估计的稳健主成分插补法,再次通过实例分析和实验模拟验证新方法的合理性.第五章,总结概括本文的研究工作和结果,提出不足之处和待解决的问题.
[Abstract]:Component data is a kind of complex multidimensional data, which is mainly used to study the proportion of the parts that make up a whole. Component data have been widely used in geology, social structure and economic development in recent years. Since there is no answer in the survey, the errors in the data collection process will lead to the lack of data, and the lack of data will affect the quality of the statistical data, resulting in an increase in the estimated variance in the statistical analysis results, thus reducing the persuasiveness of the statistical data. Therefore, the filling of missing data becomes very important. In this paper, the missing value filling method of component data is studied, and the filling method of principal component analysis is put forward for the component data with multiple collinearity, and for the component data with multiple collinearity and abnormal value, A principal component filling method based on MCD estimation is proposed. The thesis is divided into five chapters: the first chapter introduces the research background and significance of component data and the research status of missing data. In the second chapter, the definition of component data and the operation in its own space are given. Then, three kinds of logarithmic transformation and spherical coordinate transformation are given, and the common missing data filling methods of common data and component data are reviewed. In chapter 3, for the component data with multiple collinearity, the mean filling method in simplex space and the filling method based on principal component analysis are proposed, and the accuracy of the new method is verified by example analysis and experimental simulation. In chapter 4, on the basis of the filling method proposed in chapter 3, a robust principal component interpolation method based on MCD estimation is proposed for the component data with outliers, and the rationality of the new method is verified by example analysis and experimental simulation. The fifth chapter summarizes the research work and results of this paper, puts forward the shortcomings and problems to be solved.
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:O212.1
【参考文献】
相关期刊论文 前10条
1 高树国;王学磊;李庆民;杨芮;;基于MCD稳健统计分析的变压器油色谱异常值检测及分布特性[J];高电压技术;2014年11期
2 荆文君;张晓琴;常王华;;一种基于成分数据的修正EM算法[J];中北大学学报(自然科学版);2013年05期
3 孙怀宇;刘芳;李元;;EM-PCA在化工过程随机缺失数据补值中的应用研究[J];计算机与应用化学;2013年07期
4 曹芳;朱永忠;;基于多重共线性的Lasso方法[J];江南大学学报(自然科学版);2012年01期
5 谢小韦;;浅析多元线性回归中多重共线性问题的三种解决方法[J];科技信息;2009年28期
6 葛培运;;主成分回归分析在经济学中的应用[J];科技信息;2009年27期
7 刘罗曼;;用主成分回归分析解决回归模型中复共线性问题[J];沈阳师范大学学报(自然科学版);2008年01期
8 鲁茂;;几种处理多重共线性方法的比较研究[J];统计与决策;2007年13期
9 王斌会;陈一非;;基于MCD的稳健主成分算法及其实证分析[J];数理统计与管理;2006年04期
10 邱浪波;王正志;;基于逐步回归分析的基因表达缺失值估计[J];计算机工程与应用;2006年20期
,本文编号:2000649
本文链接:https://www.wllwen.com/jingjilunwen/jiliangjingjilunwen/2000649.html