左截断数据下条件分位数和线性模型的估计以及变量选择
发布时间:2020-02-29 04:39
【摘要】:在数据分析中,我们常常碰到右删失或者左截断数据问题,它们在生存分析、医学统计、天文学、经济学以及工程可靠性统计中具有重要应用。过去的大部分文献讨论的是右删失数据,而近十几年来左截断数据越来越受到大家的关注。左截断数据下,有很多文献都构造了条件分布函数、条件分位数和回归函数的估计量,建立了它们的大样本性质。本文在左截断数据下,分别研究了条件分位数的估计方法和线性回归模型中的参数估计和变量选择方法,以便进一步补充和完善相关的方法和理论。具体涉及以下几个方面。本文的第二章在左截断独立数据下,构造了条件分布函数、条件概率密度函数和条件分位数函数的加权双核局部线性估计量,建立了这些估计量的渐近正态性。YuJones(1998)构造了条件分布函数的双核局部线性(DKLL)估计量,并在完全数据下,研究了条件分位数的双核局部线性(DKLL)估计量的大样本性质。由于双核局部线性DKLL估计方法是用局部线性方法得到的,因此它和核估计方法Nadaraya-Watson(N-W)相比,具有一些局部多项式估计方法的良好的性质,比如边界点估计上的自动调节等特性。然而,到目前为止,即使对独立样本,也没有看到相关文献在左截断数据下,研究条件分布函数和条件分位数的双核局部线性DKLL估计量,因此受YuJones(1998)文章的启发,本论文的第二章在左截断独立样本下,利用双核局部线性方法构造了条件分布函数、条件概率密度函数和条件分位数的非参估计量,进而建立了它们的渐近正态性质。在左截断独立数据下,设{(Xk,Yk,Tk,),k≥ 1}来自总体(X,Y,T)的一列随机向量,这里T为截断变量。我们假设T和(X,Y)是相互独立的,并且T有连续的分布函数。在左截断模型中,对于i= 1,2,...,N,生存时间Yi被截断变量Ti干扰,当Yi ≥ Ti时,Yi和Ti都能观察到,而当YiTi时,Yi和Ti都不能观察到。由于截断的发生,N是未知的,n是实际观察到的样本容量,设θ = P(Y ≥T)表示随机变量Y被观测到的概率。根据YuJones提出的条件分布函数的双核局部线性估计方法,我们知道F(y|x)的WDKLL估计量Fh1,h2(y|x)=β0是下列优化问题的解从而ζp(x)的加权双核局部线性估计量为通过代数化简,得进而条件概率密度函数f(y|x)的估计为其中于是我们可以分别建立Fh1,h2(y|x),fh1,h2(y|x),ξp,n(x)的渐近正态性,即此外,有限样本下的数值模拟得出的结论也与我们的理论结果一致。第二章的结果已发表于《Communications in Statistics-Theory and Methods》。左截断独立样本的假设在某些情况下可能是合理的,例如,生存分析中的数据来自一个互不相干的群体时。然而,在生存分析中,我们碰到的数据结构很多是相依的。例如,从从家庭成员中采取的样本数据,还有对同一个体反复地测量得到的样本数据,更常见的是随着时间记录获取的样本数据,集群内部个体的寿命通常也是相关的(见KangKoehler(1997),Cai et al(2000))。由此可见,在相依假设下,研究左截断模型的统计推断问题有着十分深刻的理论和实际意义。本论文的第三章在左截断数据下,利用双核局部线性估计方法构造了条件分布函数,条件分位数的WKDLL估计量,并且在观察样本为α混合序列的情况下,利用混合序列的相关概率不等式和Bernstein分块方法,建立上述估计量的渐近正态性质,得到Fh1,h2(y|x),ξp,n(x)的如下结果此外,有限样本下的数值模拟结果显示,我们的估计比一般的核估计更好,从而也证实了我们方法的有效性。第三章的内容已投稿到《数学学报》(中文版),目前在审稿中。分位数回归方法最初由KoenkerBassett(1978)提出,之后在计量经济学、社会科学以及生物医药等各个领域中都有广泛的应用。Koenker(2005)的专著对QR方法进行了详细的讨论。QR方法的不足之处是估计的效率有时会很低,于是ZouYuan(2008)在线性模型的背景下,提出了综合不同点处的分位数的复合分位数回归(CQR)方法,来估计线性模型的系数。CQR方法一方面继承了QR方法的稳健性,另一方面显著的改进了QR估计的效率,是一种有效且稳健的参数估计方法。近年来,国内外关于QR和CQR方法的研究非常热门。但是,就我们所知,很少有文献研究左截断数据下的复合分位数问题。受ZouYuan(2008)文章的启发,本文的第四章在左截断数据下,构造了线性回归模型的回归系数的复合分位数估计量,然后我们利用适应性Lasso惩罚方法,来建立稳健的模型,从而得到适应性Lasso惩罚复合分位数回归估计量的Oracle性质。在左截断数据下,我们考虑下面的线性回归模型:其中X是一个p ×1的协变量随机向量,β是p ×1的未知参数的向量,ε是一个随机误差项,它与协变量X是相互独立。则回归系数β的复合分位数估计量βCQR是下列优化问题的解基于参数的复合分位数回归估计βCQR,结合适应性的lasso惩罚函数来进行变量选择和参数估计,则适应性的lasso惩罚复合分位数回归估计可以记作βACQR,它是下列优化问题的解在一定的条件下,我们建立了βCQR的渐近性质并且建立了βACQR的收敛速度和Oracle性质((?)-相合性)(?)(变量选择相合性)(?)(渐近正态性)(?)最后,我们通过有限样本下的数值模拟研究,展示了我们提出的方法的优点。第四章的内容已投稿到《Statistical Papers》,已经小修,等待接受。由于左截断数据及其他不完全数据下还有许多统计推断问题等待我们进一步探讨和研究。本文的第五章对未来的工作做了如下的展望。一、左截断相依数据下线性回归模型和半参数变系数部分线性模型的复合分位数回归问题;二、左截断右删失同时发生数据下条件分布函数和条件分位数的双核局部线性估计,以及分位数回归问题。
【图文】:
§3.4.2正态性验证逡逑在这一小节中,我们通过正态Q-Q图来比较两个估计量的渐近正态性效果。在逡逑图3.3中,取P邋=邋0.5,邋0邋?邋60%以及n邋=邋500,在:r邋=邋1和p邋=邋0.5下,分别画出N-W估逡逑计量以及WDKLL估计量的正态Q-Q图;在图3.4中,取p邋=邋0.5和n邋=邋500,分别逡逑在6/邋30%和。90%下,画出了邋6.5(1)的WDKLL估计量的正态Q-Q图;图3.5中,逡逑取P邋=邋0.5和0邋60%,分别在n邋=邋200和=邋800下,画出了N希担ǎ保┑模祝模耍蹋坦厘义霞屏康恼眩淹迹煌迹常常迹常抵械氖荻际腔冢湾澹藉澹担埃暗闹馗础e义洗油迹常撤⑾郑谙嗤南乱约埃邢拢祝模耍蹋坦兰屏康慕ソ缘腻义闲Ч龋危坠兰屏康慕ソ缘男Ч茫淮油迹常床荒芽闯觯保钕嗤保霸藉义洗螅祝模耍蹋坦兰屏康慕ソ缘男Ч胶茫淮油迹常悼闯觯绷夏客保祝模耍蹋坦厘义霞屏康慕ソ孕Ч孀牛钤酱螅Ч胶谩e义希矗靛义
本文编号:2583662
【图文】:
§3.4.2正态性验证逡逑在这一小节中,我们通过正态Q-Q图来比较两个估计量的渐近正态性效果。在逡逑图3.3中,取P邋=邋0.5,邋0邋?邋60%以及n邋=邋500,在:r邋=邋1和p邋=邋0.5下,分别画出N-W估逡逑计量以及WDKLL估计量的正态Q-Q图;在图3.4中,取p邋=邋0.5和n邋=邋500,分别逡逑在6/邋30%和。90%下,画出了邋6.5(1)的WDKLL估计量的正态Q-Q图;图3.5中,逡逑取P邋=邋0.5和0邋60%,分别在n邋=邋200和=邋800下,画出了N希担ǎ保┑模祝模耍蹋坦厘义霞屏康恼眩淹迹煌迹常常迹常抵械氖荻际腔冢湾澹藉澹担埃暗闹馗础e义洗油迹常撤⑾郑谙嗤南乱约埃邢拢祝模耍蹋坦兰屏康慕ソ缘腻义闲Ч龋危坠兰屏康慕ソ缘男Ч茫淮油迹常床荒芽闯觯保钕嗤保霸藉义洗螅祝模耍蹋坦兰屏康慕ソ缘男Ч胶茫淮油迹常悼闯觯绷夏客保祝模耍蹋坦厘义霞屏康慕ソ孕Ч孀牛钤酱螅Ч胶谩e义希矗靛义
本文编号:2583662
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/2583662.html