针对零膨胀超散度计数数据的统计推断
本文选题:零膨胀 + ZIP模型 ; 参考:《昆明理工大学》2011年硕士论文
【摘要】:计数数据是广泛存在于日常生活和研究中的一类离散数据。对于该类数据,我们一般使用普通泊松分布对其进行回归分析。该方法在过去的实践和研究中被广泛应用。 然而,相对于普通的泊松分布存在过分多零的计数数据,在日常生活和研究中也经常会碰到。对于该类计数数据,如果仍沿用普通的泊松分布去拟合,将会导致偏差过大的参数估计和错误的推断。为解决这一问题,针对该类数据的将普通泊松分布和在零点的退化分布混合起来构成的零膨胀泊松混合回归(ZIP)模型被提出来。而对于所研究的计数数据是否确实存在零膨胀的判断,对模型的选择起到决定性的作用。对此,本文提出了一种Score检验方法来判断所研究的计数数据是否存在零膨胀。如果零膨胀确实存在,则使用ZIP模型进行回归分析;否则,可继续沿用传统的相对简单的普通泊松分布进行回归分析。 此外,对于普通的计数数据,由于纵向数据采集机制等原因,数据之间可能会存在关联性和分层结构。这时普通的单水平模型将不能得到理想的参数估计和检验结果。对此,针对这类有着分层结构的数据的多水平回归模型被提出来。本文基于最为广泛的具有分层结构的双水平数据,采用贝叶斯方法对该类数据进行了参数估计和检验判断。 除了计数数据存在过分多零的情况外,对于非零部分的计数数据,也可能会存在相对于普通的泊松分布方差与均值存在较大偏差,即超散度的情形。此时,若仍采用普通的零膨胀泊松混合回归模型(ZIP)来处理该类数据,将不能得到最佳的拟合效果。而由于带有散度参数的负二项分布(NB)能够更充分的解释该散度过大的问题,所以,可以采用零膨胀负二项混合回归模型(ZINB)来处理该类数据以达到最佳拟合效果。而在模型的选择之前,对于所研究的数据是否存在超散度的检验也是必不可少的。为此,本文提出了针对双水平情形下的该类数据是否存在超散度的Score检验。若结果显示超散度不存在,则可使用ZIP模型进行回归分析:否则,应选用ZINB模型。 在实际生活和研究中,经常会碰到数据缺失的情形,它给参数估计和模型推断带来了许多麻烦。对于该类缺失数据的处理,前人已经总结了大量的方法,但均是基于随机缺失的假设前提下,且认为各协变量是属于同一多元分布。而事实上,很多缺失是由于测量值超出测度范围或其它一些非随机因素引起的,即所谓的非随机缺失。对于该类缺失数据,传统的缺失数据处理方法将不再适合。针对该类缺失数据,本文将传统方法加以优化,即将缺失数据作为未知参数对待,再采用Gibbs抽样的方法,以及数据分解技巧来填充所缺失的数据,并将该方法应用到所研究的模型中。通过模拟结果显示,对于非随机缺失数据,该方法要明显优于随机缺失假设下的传统方法。 最后,在本文的结尾,对于本文所做的工作进行了总结。并对针对计数数据的模型的后续研究方向做了一个初步的展望与预测。
[Abstract]:Counting data is a kind of discrete data which is widely used in daily life and research. For this kind of data, we generally use ordinary Poisson distribution to carry out regression analysis. This method is widely used in the past practice and research.
However, there is too much zero count data relative to common Poisson distribution, which is often encountered in daily life and research. For this kind of count data, if still using the common Poisson distribution to fit, it will lead to excessive parameter estimation and error inference. In order to solve this problem, the data will be common to the general data. The Poisson distribution and the zero expansion Poisson mixed regression (ZIP) model, which is mixed together with the degenerated distribution of the zero point, are proposed. But the decision of whether the counted data is indeed zero expansion is decisive for the selection of the model. In this paper, a Score test method is proposed to determine the number of counts studied. If there is a zero expansion, if the zero expansion does exist, the ZIP model is used for regression analysis; otherwise, the traditional relatively simple general Poisson distribution can continue to be used for regression analysis.
In addition, for common count data, there may be a correlation and hierarchical structure between the data due to the longitudinal data acquisition mechanism. The ordinary single level model will not get the ideal parameter estimation and test results. In this case, the multi level regression model for this kind of data with hierarchical structure is proposed. Based on the most widely used bi level data with hierarchical structure, Bayesian method is used to estimate and check the parameters of the data.
In addition to the excessive zero of the counting data, there may be a large deviation from the average Poisson distribution variance to the average of the ordinary Poisson distribution, that is, the case of excess dispersion. At this time, it will not be best to use the ordinary zero expansion Poisson mixed regression model (ZIP) to deal with this kind of data. The negative two term distribution (NB) with divergence parameters can more fully explain the problem of excessive divergence, so the zero expansion negative two term mixed regression model (ZINB) can be used to deal with this kind of data in order to achieve the best fitting effect. The test is also necessary. For this reason, this paper proposes a Score test for the existence of the hyper scatter for the class of data in a double level case. If the result shows that the hyper divergence does not exist, the ZIP model can be used for regression analysis. Otherwise, the ZINB model should be selected.
In real life and research, data lack is often encountered. It brings a lot of trouble to parameter estimation and model inference. For the processing of this kind of missing data, a large number of methods have been summed up, but they are based on the assumption of random deletion and are considered to belong to the same multivariate distribution. In fact, Many defects are caused by the measurement value beyond the range of measurement or other non random factors, that is, the so-called non random deletion. For the missing data, the traditional missing data processing method will no longer be suitable. In this paper, the traditional method is optimized for the missing data, and the missing data is treated as an unknown parameter, and then the data is taken as an unknown parameter. The method of Gibbs sampling and data decomposition technique are used to fill the missing data and apply the method to the model studied. The simulation results show that the method is obviously better than the traditional method under the random missing hypothesis for the non random missing data.
Finally, at the end of this paper, the work done in this paper is summarized, and a preliminary prospect and prediction are made for the follow-up research direction of the model for counting data.
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:C81
【相似文献】
相关期刊论文 前10条
1 王林年,白心爱;Yee算法的散度特性[J];吕梁高等专科学校学报;2002年01期
2 孙影;闫蒙钢;朱小丽;;利用SPSS14.0软件进行化学计数数据的χ~2检验[J];化学教学;2008年07期
3 张燕;简明推导%絶2鄃%紸和%絰在一般正交曲线坐标系中的表达式[J];大学物理;1995年08期
4 钟克武 ,胡业腾;广义Helmholtz定理的四维势表述及其在同时含有电荷磁、荷的电磁场中的应用[J];九江师专学报;1985年Z2期
5 赵彦杰;磁场强度鄪只与传导电流猞有关的几种特殊情况的分析[J];德州学院学报;1996年02期
6 俞礼钧;从能量动量张量T~(ab)讨论熵四矢的散度[J];武汉教育学院学报;1999年06期
7 刘荣道;场论中的梯度、散度、旋度和两个重要的积分公式[J];湖北大学成人教育学院学报;2002年01期
8 谢赞;王高;李飞;;混合回归模型在百货商店市场细分中的应用[J];数理统计与管理;2009年02期
9 钟克武 ,胡业腾;散度、旋度表述下的两类电磁运动规律[J];九江师专学报;1984年04期
10 高维政 ,康玉娥;关于毕——萨定律的几点注释[J];沈阳大学学报;1993年02期
相关会议论文 前10条
1 李勇智;杨静宇;毛洪贲;;基于局部和非局部散度理论的一种新的特征提取方法[A];第二十七届中国控制会议论文集[C];2008年
2 冯予;;散度族非线性随机效应模型的几何结构[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 薛景浩;章毓晋;林行刚;;两种改进的图象模糊散度阈值化分割算法[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
4 李泽飞;陈培红;瞿寿德;;GaAs晶体生长的自动控制[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(下册)[C];1995年
5 王修琼;张相庭;;群体高层建筑基于混合回归模型的风响应时域分析[A];第八届全国结构工程学术会议论文集(第Ⅱ卷)[C];1999年
6 黎坚;张厚粲;;心理学常用计数数据相似性检验法[A];全国教育与心理统计测量学术年会论文摘要集[C];2006年
7 杨波;魏东;;新型探测资料的二次开发及应用——风廓线篇[A];第26届中国气象学会年会第三届气象综合探测技术研讨会分会场论文集[C];2009年
8 杨晓松;安世全;;平面系统吸引区域估计的一个讨论[A];2001中国控制与决策学术年会论文集[C];2001年
9 王中兴;陈磊;唐五龙;;基于二元语义的模糊数排序方法[A];第六届中国不确定系统年会论文集[C];2008年
10 孙仲毅;靳冰凌;邢用书;芦阿咪;孙日丁;常江;;河南省北部一次暴雪天气过程诊断分析[A];天气、气候与可持续发展——河南省气象学会2010年年会论文集[C];2010年
相关重要报纸文章 前10条
1 记者 郭逸晴 通讯员 段荣;零售业零散度高达90%[N];南方日报;2006年
2 郭廷杰;日本成功开发新陶瓷[N];中国矿业报;2000年
3 西本新干线工作室 Elson;增仓?减仓?[N];现代物流报;2007年
4 本报记者 范高明;观念创新 把握企业发展脉搏[N];中国高新技术产业导报;2008年
5 郭文忠;种企竞争拼实力[N];农民日报;2003年
6 海通证券研究所 联蒙珂博士;美国基金的信息披露[N];信息时报;2001年
7 海通证券研究所 联蒙珂博士;美国基金的信息披露[N];证券时报;2000年
8 本报记者 龚勇 刘雪梅;全面提高国民素质重在教育[N];中国改革报;2003年
9 翟文;特种陶瓷生产技术新进展[N];中国建材报;2001年
10 本报记者 李上雄 刘坚;抓准市场、吃透对手、利用人才是企业入世后的重中之重[N];中国汽车报;2002年
相关博士学位论文 前10条
1 郭福涛;基于空间分析和模型理论的大兴安岭地区林火分布与预测模型研究[D];东北林业大学;2010年
2 冯予;散度族非线性模型的统计分析[D];南京理工大学;2003年
3 张健;质量工程试验中的波动分析[D];苏州大学;2004年
4 刘伟;基于贝叶斯方法的有限混合模型选择[D];东北师范大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 王秀美;隐变量模型的建模与优化[D];西安电子科技大学;2010年
7 楼宋江;基于保局子空间分析的人脸特征提取算法研究[D];哈尔滨工程大学;2011年
8 吴华;Chebyshev-Legendre谱方法及其区域分裂方法[D];上海大学;2004年
9 曹先凡;带隙材料与特定性能材料设计[D];大连理工大学;2007年
10 张晓峰;大行程超精密工作台关键技术研究[D];天津大学;2008年
相关硕士学位论文 前10条
1 李克春;针对零膨胀超散度计数数据的统计推断[D];昆明理工大学;2011年
2 敬晓英;关于若干回归模型的研究[D];长安大学;2011年
3 唐珏;机动车第三者责任保险损失频率模型与奖惩系统的研究[D];复旦大学;2008年
4 董传磊;关于f-散度与Bregman散度[D];上海交通大学;2011年
5 谢中华;赤潮发生的频率分析和预报[D];天津大学;2004年
6 冯佳睿;纵向Zero-Inflated计数数据的半参数分析[D];复旦大学;2010年
7 毕华;带有截尾数据的无重复因子试验的位置效应与散度效应分析[D];山西大学;2004年
8 蒋娇娇;非负矩阵分解算法的改进及应用[D];北京工业大学;2011年
9 刘小弟;多普勒雷达风暴螺旋度计算和研究[D];南京信息工程大学;2008年
10 王丽荣;多普勒雷达在大面积降水中的速度图像特征及动力学分析[D];南京信息工程大学;2005年
,本文编号:1831592
本文链接:https://www.wllwen.com/shekelunwen/shgj/1831592.html