当前位置:主页 > 经济论文 > 经济管理论文 >

高维分类数据的关联关系及可压缩性分析

发布时间:2020-04-02 22:55
【摘要】:通常情况下,统计学研究的数据类型可以根据测量的尺度分为定性数据和定量数据两种类型。所谓的定性数据是一组表示事物性质、规定事物类别的文字表述型数据,在统计学上的包括分类数据和顺序数据。对于定性数据中的分类数据,主要研究的内容及结论除了基于logistics模型的回归分析之外,更多的是变量与变量间的关联关系或相关关系,特别对于多维的情形,各变量间复杂的关系和关联结构是研究的重点,也是难点。分类数据常见于社会科学各领域,特别是出现在各种调查问卷收集的结果,以及医学和心理学等方面的数据中。由于涉及的问题和因素众多,这些结果常常以高维列联表的形式呈现。对于高维列联表而言,直接作分析是很困难且很繁琐的,因此需要对其进行简化,这就需要研究变量之间的各种关系,包括是否独立?是否相关?是否既不独立也不相关?如果有关系,结构如何?是否可以用函数表示等等一系列问题。于是,我们从最基础的独立性检验问题出发展开讨论。用于独立性假设检验的卡方检验和似然比检验需要在大样本的数据容量下才能保证其参数的有效性和稳定性,而高维列联表必定会使每个单元格频数显著降低,解决这个问题可以有两个想法,一是收集更多的样本,增加每个单元格的数据容量,二是通过压缩变量增加单元格数量,即对原有的高维列联表进行压缩。对于第一个想法,关键是增加样本量,而当这些变量中有涉及到抽象的,现有数据集中不存在的变量时,就必须采取问卷调查的形式来获取相应数据,通常以这种消耗人力又耗时的方法得到的数据量是非常有限的。而第二个想法,自从Simpson于1951年提出辛普森悖论,对高维列联表的压缩成为了一个值得研究的问题,若对高维列联表压缩不当,就会出现虚假相关,虚假独立,辛普森悖论等问题。本文主要针对上述两个想法和相应问题提出对应的解决方法,主要研究的内容包括以下几点:(1)首先从三维列联表饱和对数线性模型出发,给出列联表可压缩性的相关定理,同时将该定理推导到高维列联表的情况,说明其结论同样适用于高维情形。该定理除了可以刻画变量间的关系外,在一定程度也解释了什么时候会发生“同质”现象,即两变量的发生比之比不会随着其他变量的取值不同而改变。(2)在已有的关于三,四维分类数据的列联表的压缩性定理基础上,我们通过借助对数线性模型和关联图的关系重点研究高维列联表的关联关系和压缩性定理。相比已有结论,我们的方法一方面可以自然推广到五维及以上的高维情形,另一方面建立更直观的关联图的可压缩性定理,以关联图的形式分析哪些变量是可压缩的,哪些是不可压缩的,给人以更直观的形式呈现。(3)在已有的三、四维列联表基于互信息的变量重要性排序的基础上,我们进一步研究基于条件互信息的变量可压缩性排序问题,研究表明,这两种排序结果是不一致的。其实除了本文提出的基于对数线性模型和关联图下的可压缩性定理,还有以其他标准来衡量一变量是否可压缩,如基于线性信息模型或信息熵下的压缩分析,但它们得出的答案可能会有差异,本文提出的可压缩性排序就像是一把衡量它们结果好坏的尺子。(4)对于不易进行数据收集的分类变量,通常得到的样本是有限的。为了获取更多有效的样本,本文提出先用Bootstrap抽样法产生多份一定量的数据集,分别模拟它们的对数线性模型得到模型的各个参数的估计向量,并进行聚类得若干份各参数估计的向量,以提供模型预测的选择。实验结果表明即使各参数与真实模型的各个参数有差异,但这若干个参数估计向量对应的模型的概率分布与真实模型的概率分布的K-L距离都较小,即概率分布很接近,并且这若干个向量中,越靠近对应参数的置信区间,它与真实的概率分布的K-L距离越小。探究分类变量间的关联关系及构建变量的模型是至关重要的,尤其对于分类数据中常见的高维列联表,或者是样本量不足的情况,既会增加分析的难度,也会使得变量间的关联关系和模型的不可信。本文就是以这种问题背景下,提出相应的压缩性定理,压缩性排序和利用Bootstrap抽样法增加样本的方法。
【图文】:

折线图,折线图,参数,概率分布


图4.1参数折线图逡逑三个模型的参数就很容易计算出它们的概率分布,分别用A,巧,A表示它<-c(0.027,0.056,0.102,0.082,0.057,0.04,0.103,0.07,0.045,0.068,0.056,0.086,逡逑0.063,0.058,0.025,0.062)逡逑

折线图,折线图,参数,聚类中心


从真实模型抽取的200个样本作原样本,每个组合类的频数为:逡逑count邋<邋-c(4,9,16,12,6,9,16,16,6,8,29,18,8,14,14,15)逡逑得到的3个聚类中心如表4.5和图4.2所示:逡逑表4.邋5参数估计值逡逑聚类截距邋M邋E邋P邋G邋ME邋MP邋MG邋EP邋EG邋PG邋MEP邋MEG邋MPG邋MEG邋MEPG逡逑中心逡逑1逦1.91邋0.24邋0.邋89邋0.邋23邋-0.01邋-0.邋37邋-0.邋36逦-0.邋38邋-0.12邋-0.邋46邋0.29邋0.邋33邋0.1邋-0.43邋0.邋24邋-0.邋43逡逑2逦2.15邋-0.16邋0.邋58邋_0.19邋-0.邋51邋0.15邋0.邋31逦1.10邋0.邋41邋0.邋23邋1.邋03邋-0.邋53邋-0.87邋-1.邋57邋-0.邋78邋1.邋06逡逑3逦1.邋5邋0.邋76邋1.邋39邋0.邋756邋0.邋55邋-1.邋02邋-1.12逦-0.邋35邋-0.邋76邋—1.14邋-0.邋42邋1.邋26邋1.02邋0.62邋1.12邋-1.邋72逡逑54逡逑
【学位授予单位】:浙江师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F224

【参考文献】

相关期刊论文 前10条

1 林存津;曹小双;李开灿;;列行比值之差的可压缩性[J];湖北师范学院学报(自然科学版);2014年04期

2 王海;高岭;宋振孝;戴小平;卢怡杰;;基于GINI指数分类的嵌入式CPU功耗预测方法[J];计算机学报;2015年02期

3 周凌峰;安胜利;;定量变量的分级方法对logistic模型影响的研究[J];中国卫生统计;2014年04期

4 王新军;王亚娟;;基于广义线性模型的车险分类费率厘定研究[J];保险研究;2013年09期

5 文婷;;卡方检验在医学资料处理中的应用[J];长江大学学报(自科版);2013年24期

6 刘金涛;秦超英;党红;;Meta分析中基于Q统计量服从卡方分布线性变换的异质性方差区间估计[J];中国循证医学杂志;2012年11期

7 李新;关红阳;;医药研究中高维列联表资料的分析及SPSS实现[J];数理医药学杂志;2012年03期

8 薛允莲;姜世强;刘贵浩;张晋昕;;列联表资料的关联强度[J];中国卫生统计;2011年03期

9 陆恒云;杨根科;潘常春;;一种基于关联图的蛋白质结构预测改进算法[J];上海交通大学学报;2011年01期

10 张丽丽;;奥尔森估价模型与线性信息模型实证检验[J];陕西农业科学;2010年06期



本文编号:2612551

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jingjiguanlilunwen/2612551.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户abf49***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com