变系数部分线性模型的统计推断
本文关键词: 变系数部分线性模型 有效估计 模型识别 变量选择 超高维 出处:《南京信息工程大学》2015年硕士论文 论文类型:学位论文
【摘要】:随着互联网数据库的不断扩展,实际问题中收集到的数据很多都是高维数据。为了处理高维数据分析的问题,许多参数和半参数模型被提出用来避免“维数祸根”的问题。在众多的参数和半参数模型中,变系数部分线性模型由于模型本身既包含了常系数,又包含了函数型系数,从而受到广泛的关注。一般常用的估计模型方法有最小二乘法(LSE),最小方差法(MAVE)等,但这些方法得到的估计结果可能不是有效估计,这就要求我们发展更适合的估计方法。另一方面,由于数据的不断积累,数据中的协变量的数目经常呈多项式速率增长,有时甚至呈指数速率增长。在高维数据下如何更好地对参数或半参数模型进行估计和统计推断,就更加重要。因此,当我们研究变系数部分线性模型在高维和超高维情况下的统计问题时,就要求我们发展更合适的处理方法。本文系统地研究了变系数部分线性模型的估计、变量选择以及在超高维数据中的降维问题。研究结果表明通过建立有效估计方程可以得到有效估计;使用group lasso方法进行变量选择可以识别出常系数变量和函数型变量;通过排序KL距离来进行特征筛选,可以降低超高维数据的维数。本文研究了变系数部分线性模型在不同维数情况下的一些统计问题。主要内容如下:(1)研究了带异方差的变系数部分线性模型的估计有效性问题,给出完全样本下感兴趣参数的有效得分向量函数和有效估计。提出有效估计方程并给出带异方差的变系数部分线性模型的半参数有效界,证明所得估计为有效估计,并证明其大样本性质,通过数值模拟研究其有限样本性质。(2)研究了在高维数据下,变系数部分线性模型的变量选择问题。提出两阶段变量选择方法,分别对模型的线性部分和变系数部分做变量选择,得到参数的Adaptive Lasso估计,证明了估计的渐近性质与相合性,并利用数值模拟研究估计的有限样本性质。(3)研究了超高维数据情况下的变系数模型变量筛选问题,提出基于KL距离的变量筛选方法,通过条件累计分布函数构造协变量与响应变量之间的边际KL距离统计量,进行排序来筛选变量,并利用数值模拟验证了所提出方法的有限样本性质。
[Abstract]:With the continuous expansion of the Internet database, many of the data collected in practical problems are high-dimensional data. In order to deal with the problem of high-dimensional data analysis, Many parametric and semi-parametric models have been proposed to avoid the problem of "dimensionality curse". Among many parametric and semi-parametric models, the partial linear model with variable coefficients contains both constant and functional coefficients. The commonly used estimation methods are the least square method (LSE), the least variance method (MAVEV) and so on, but the estimation results obtained by these methods may not be valid. This requires us to develop more appropriate estimation methods. On the other hand, because of the constant accumulation of data, the number of covariables in the data often increases at a polynomial rate. Sometimes it even increases exponentially. How to better estimate and statistically infer parametric or semi-parametric models under high-dimensional data is even more important. When we study the statistical problems of partial linear models with variable coefficients in high and ultra-high dimensions, we are required to develop more suitable methods of dealing with them. In this paper, the estimation of partial linear models with variable coefficients is studied systematically. Variable selection and dimensionality reduction in ultra-high dimensional data. The results show that effective estimation can be obtained by establishing effective estimation equations, constant coefficient variables and functional variables can be identified by group lasso method. By sorting the KL distance for feature filtering, In this paper, we study some statistical problems of partial linear models with variable coefficients under different dimensions. The main contents are as follows: (1) the estimation validity of partial linear models with variable coefficients with heteroscedasticity is studied. The effective score vector function and effective estimate of the parameters of interest under complete samples are given. The effective estimation equation and the semi-parametric efficient bound of the partial linear model with variable coefficients with heteroscedasticity are proposed, and the obtained estimates are proved to be effective estimates. The problem of variable selection for variable coefficient partial linear model under high-dimensional data is studied by numerical simulation. A two-stage variable selection method is proposed. The linear part and variable coefficient part of the model are selected, and the Adaptive Lasso estimation of the parameters is obtained. The asymptotic property and consistency of the estimator are proved. The variable selection problem of variable coefficient model under ultra-high dimensional data is studied by using finite sample properties of numerical simulation. A variable selection method based on KL distance is proposed. The marginal KL distance statistics between the covariable and the response variable are constructed by the conditional cumulative distribution function and sorted to filter the variables. The finite sample properties of the proposed method are verified by numerical simulation.
【学位授予单位】:南京信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:O212.1
【相似文献】
相关期刊论文 前10条
1 胡端平;刘吉定;;成分数据的线性模型[J];应用数学;2009年03期
2 刘洪伟;徐文科;;线性模型的广义最小二乘估计递推算法[J];哈尔滨师范大学自然科学学报;2011年03期
3 邱红兵;罗季;孙旭;;奇异线性模型下最小范数二次无偏估计关于误差分布的稳健性[J];华侨大学学报(自然科学版);2012年01期
4 何仲洛;在线性模型中的随机加权逼近[J];湖州师专学报;1987年05期
5 孙平;;线性模型的非负优良性[J];应用概率统计;1987年04期
6 施国生;沈宗畸;;计算机配棉中的线性模型[J];浙江丝绸工学院学报;1988年04期
7 陈定庚;线性模型的比较[J];湖南大学学报;1990年02期
8 施沛德;;部分线性模型中M型回归样条估计的一些新结果[J];科学通报;1993年20期
9 吴今培;可能性线性模型诊断方法及其应用[J];五邑大学学报(自然科学版);1995年02期
10 刘维奇,潘晋孝;聚集数据线性模型参数的一种新估计[J];工程数学学报;1996年04期
相关会议论文 前8条
1 岳珠;;奇异线性模型的交互影响分析[A];中国现场统计研究会第九届学术年会论文集[C];1999年
2 张尚立;;约束条件线性模型最佳线性无偏估计的影响分析[A];中国现场统计研究会第十三届学术年会论文集[C];2007年
3 刘玄鹤;向晓峰;高南;;背向台阶流动的线性模型[A];中国力学大会——2013论文摘要集[C];2013年
4 赵宏艳;井世洁;;儿童数字估计能力的发展状况研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年
5 许伟;龚昌超;曾新吾;;调制气流声源线性模型理论分析[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
6 曹燕华;纪波;殷伯明;;用高三10次月考成绩预测高考成绩的建模比较研究[A];第25届全国灰色系统会议论文集[C];2014年
7 谢小庆;任杰;;HSK等值方法的改进[A];对外汉语教学的全方位探索——对外汉语研究学术讨论会论文集[C];2004年
8 褚丽媛;高天德;;基于宽线性模型的立体声回波对消方法[A];2012'中国西部声学学术交流会论文集(Ⅰ)[C];2012年
相关博士学位论文 前10条
1 葛洪伟;可能性线性模型中参数与输入噪声间关系的研究及其应用[D];江南大学;2008年
2 张日权;函数系数和部分线性模型中的估计问题[D];华东师范大学;2003年
3 黎雅莲;带约束条件的线性模型参数估计理论与方法研究[D];重庆大学;2009年
4 李文学;线性模型和线性测量误差约束估计及其性质研究[D];重庆大学;2011年
5 徐文科;基于微分方程的生态数学模型统计分析[D];东北林业大学;2009年
6 赵娟;线性模型的最小方差估计问题[D];四川大学;2002年
7 邬吉波;线性模型参数估计的若干性质研究[D];重庆大学;2013年
8 曾云辉;高维线性模型和部分线性模型的相合统计推断[D];山东大学;2013年
9 刘锋;部分线性模型的序列相关检验与异方差检验[D];中南大学;2006年
10 徐建文;线性模型参数的约束有偏估计和预检验估计研究[D];重庆大学;2009年
相关硕士学位论文 前10条
1 赵文星;变系数部分线性模型的统计推断[D];南京信息工程大学;2015年
2 孙自朋;扭曲测量误差数据下受限制部分线性模型的统计分析[D];深圳大学;2015年
3 宛书楠;函数部分线性模型在煤谱数据中的应用[D];东北师范大学;2015年
4 张中洋;线性模型假设条件的影响分析[D];武汉科技大学;2005年
5 李强;线性模型下的蒙特卡罗算法和数据挖掘[D];重庆大学;2005年
6 查道庆;污染线性模型的讨论[D];安徽大学;2006年
7 孔杨;线性模型中几种模型条件对统计结果的影响[D];山东大学;2010年
8 朱利亚;累加阶层线性模型的研究及应用[D];南京信息工程大学;2012年
9 何帮强;污染线性模型的参数和非参数估计的研究[D];合肥工业大学;2007年
10 银利;部分线性模型及其应用[D];重庆理工大学;2014年
,本文编号:1535438
本文链接:https://www.wllwen.com/kejilunwen/yysx/1535438.html