当前位置:主页 > 科技论文 > 数学论文 >

高维数据的检验问题和上期望参数回归

发布时间:2020-05-21 09:20
【摘要】:近几十年来,生物科学、医学、信息技术和金融学等领域高速发展,许多需要解决的实际问题会涉及到各种类型的数据.面对如此繁杂的数据,统计学的作用尤为凸显.本论文中,我们主要研究高维数据的检验问题并对分布随机性数据进行建模.在论文的检验部分,我们考虑高维数据聚类的显著性检验以及双样本均值向量的检验.在分布随机性数据的分析中,我们先给出分布随机性的定义,针对这类数据构造上期望回归模型,并提出以两步惩罚的最大最小二乘方法估计上期望模型中的均值函数和误差项的上期望.这两大类问题具有一个共同特点,即数据集中的样本可能来自多个分布.本文主体框架分为四个章节:第一章简单介绍聚类方法以及相关检验、均值向量检验的经典方法、经典参数回归模型以及上期望的概念,并在章节最后给出论文的主要结构.第二章和第三章都围绕高维数据的检验展开.其中,第二章提出新的聚类显著性检验方法NewSig,并应用到癌症数据的分析中.第三章构造Neyman截断统计量检验双样本的均值向量,并应用到白血病基因数据中.第四章研究分布随机性数据的特点,定义与之对应的上期望回归模型并提供相关参数估计方法.下面我们分别对第二、三、四章节进行简要介绍.第二章:研究高维数据的聚类显著性检验问题.面对大量数据,人们首先想到归纳整理,这就涉及到聚类方法,比如基于平方距离的K-means聚类和基于树状图的层次聚类.目前已存在众多聚类方法,对某一确定的数据集,肯定存在某种聚类方法能将其划分为几个子类.但是,极少有学者在聚类之前判断数据集是否存在真实的子类,亦或是仅仅因为偶然而造成的结果.虽然这个问题经常被忽视,但这却是实施聚类方法并进行实际应用之前的一个重要步骤.本文这一部分即是对高维数据集是否具有真实子类这个显著性检验问题展开讨论的.这一章节首先引入一个小案例,即在正态分布N(0,1)中随机生成n个样本,将其分为两个极端子类,然后通过常用的t统计量来检验两个子类之间的差异.检验所得结果中的P-值近似为零,意味着拒绝原假设,即数据不是来自于同一分布,这一结论与事实相互矛盾.这个案例说明均值检验不适用于检验聚类显著性,统计学中明显缺乏系统的聚类显著性检验方法.Liu et al.(2008)[47]提出SigClust检验,但该方法对第一类错误的过度保守控制导致检验功效降低.对此,我们仔细研究SigClust检验的统计量CT,剔除掉统计量里面一些重复和无用的项,并基于不同观测值之间的平方距离来构建新的统计量BCI.该统计量具有位移和旋转不变性,可避免检验过程中对均值和协方差矩阵的估计.原假设H0下,BCI仅由协方差矩阵的最大特征值和所有特征值的总和决定.在备择假设H1下,满足一定条件时,检验功效趋于1.之后我们还将新方法NewSig推广至部分标记数据集的检验中.与SigClust检验相比,新统计量的变异系数(CV)显著降低,使得整个模拟过程更加稳定.在模拟实验和两例癌症数据分析中,NewSig检验在控制第一类错误的同时,也获得更大的检验功效.第三章:研究高维数据的双样本均值检验问题.在第二章我们曾提到过t检验,这是一元均值检验的经典方法.对于多元变量,检验均值向量一般使用Hotelling-T2检验方法.然而,在高维数据情况下,检验问题通常涉及到样本协方差矩阵的估计,并且高维数据本身会受累计误差的影响.因此,Hotelling-T2统计量不适合检验高维数据.从Dempster的非精确检验到Chen-Qin检验及Cai-Liu检验,高维数据的均值检验方法日趋成熟.目前存在的均值向量检验方法主要分"Sum-of-Squares"和"Max"两种类型.但是这两种方法都有局限性,"Sum-of-Squares"类型的检验方法更适用于高维稠密数据,而不适用于高维稀疏数据;"Max”类型的检验方法虽然可以检验高维稀疏数据,但对于既不稠密也不稀疏的数据检验功效明显降低.受Fan(1996)[21]的启发,我们在这一章节提出一种"Max-Partial-Sum"类型的检验方法——Neyman截断检验,即由边际统计量最大的部分和构造而成."Sum-of-Squares"类型和"Max"类型统计量可视为"Max-Partial-Sum"类型统计量的两种极端情况.Neyman截断统计量的构造方式不仅使Neyman检验继承了"Sum-of-Squares"类型和"Max"类型统计量分别在检验稠密和稀疏数据时的较高功效.而且使它在检验既不稀疏也不稠密的信号时同样表现良好.为使检验方法对高维微弱信号更加敏感,我们通过样本变换的方式对其进行修正,在削弱样本每个分量之间依赖性的同时,也增强两个样本间信号差异的强度.在理论上我们给出Neyman截断统计量在原假设H0下的渐近分布——双指数分布,在备择假设H1下,数据满足一定条件时检验功效趋于1.因为双指数分布收敛速度较慢,实际应用中我们采用Boostrap方法模拟统计量的分布.在模拟实验和白血病基因实例分析中,Neyman截断检验表现优异.第四章:研究分布随机性数据的上期望回归问题.回归问题在多元数据分析时应用广泛,主要来源于其概念性的逻辑过程,即用模型方程的形式表达响应变量与预测变量之间的关系.本章节开始部分对斯普林菲尔德第五国家银行1995年的数据集进行简要分析,以年薪作为响应变量,工作水平、教育水平、性别和一个虚拟变量作为与之相关的预测变量.经典线性回归拟合结果的残差十分分散,甚至出现明显的集群现象.之后我们尝试了非线性模型,但结果并未有太大改善.这引发了我们的思考:是否存在未被观测到或被忽略的预测变量.事实表明,在回归分析中,的确可能存在一些不可观测的、未被观测到或被忽略的预测变量,而这些因子会随机地影响响应变量.当给定这些因子时,观测值服从相应的条件分布,我们定义这类现象为分布的随机性.针对这类数据,我们将Huber(1981)[39]提出的上期望融入到传统的参数回归中,构造出上期望回归模型.之后,我们还给出两步惩罚的最大最小二乘方法,用以估计均值函数和误差项的上期望.需要一提的是,在估计过程中我们需要选择可用的观测值来估计误差上期望,这与我们在第三章中选取部分边际统计量的思想有异曲同工之妙.在一定条件下,我们通过理论可证明所得的估计量是一致渐近正态的.模拟实验和实际数据分析也同样展示了上期望回归模型和相应参数估计方法的良好表现.
【图文】:

箱线图


对角线元素等于%剩余P邋-邋s个等于1.我们考虑r邋=邋100和s邋=邋1的情况,并对逡逑p邋=邋1,2,邋■??,120中的每一个p分别进行实验.对任意p,我们重复1000次模拟来计逡逑算SigClust和NewSig相应检验统计量的CV值,并将结果绘制成箱线图.图2.1右侧逡逑的箱线图表明的CV值大部分集中在区间(0.043,邋0.050)中,而左侧的箱线图表明逡逑的CV值大部分聚集在区间(0.063,邋0.088)中,有些值甚至己远离箱线图的中心.这逡逑个案例表明,在不考虑特征值估计值的情况下,NewSig检验统计量的大多数CV值小于逡逑SigClust的CV值.换而言之,在具有极大特征值的情况下,5CT比CJ更集中.此外,第逡逑2.2节和第2.3节中新统计量5(71的理论性质也表明,NewSig方法控制第一类错误的逡逑同时,也提高了检验功效.更多的模拟研宄以及对实际癌症数据的分析在第2.4节和第逡逑2.5节中给出,这进一步体现了邋5C7的优异之处.逡逑现在我们回到之前Liu邋et邋al.邋(2008)丨47]给出的那个极端聚类的例子中

显著性检验,箱线图,模拟案例,对角线元素


Cl逦BCI逡逑图2.1:邋CV^和CVs0r的箱线图逡逑用.我们将在第2.2节中表明BCT的CV值在理论上明显小于CT的CV值,这确保逡逑5CT的分散程度低于C7,因此?会更加稳定.逡逑现在,我们暂时通过一个简单的模拟案例来说明这一观点.首先从iV(0,邋_D)多元逡逑高斯分布中随机生成n个样本观测值.分布的协方差矩阵_D是一个对角阵,其中s个逡逑对角线元素等于%剩余P邋-邋s个等于1.我们考虑r邋=邋100和s邋=邋1的情况,并对逡逑p邋=邋1,2,邋■??,,120中的每一个p分别进行实验.对任意p,我们重复1000次模拟来计逡逑算SigClust和NewSig相应检验统计量的CV值,并将结果绘制成箱线图.图2.1右侧逡逑的箱线图表明的CV值大部分集中在区间(0.043
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:O212.1

【相似文献】

相关期刊论文 前10条

1 陈红彬;;基于大数据的高维数据挖掘探究[J];通讯世界;2018年03期

2 于君;范文彬;杜永军;;智能电网中高维数据聚类方法研究[J];智能计算机与应用;2016年01期

3 张凌洁;;浅谈高维数据变量选择现状与方法[J];数码世界;2016年07期

4 李泽安;;浅谈高维数据挖掘的现状与方法[J];福建电脑;2014年07期

5 宋怀波;何东健;;面向精细农业的高维数据本征维数估计方法研究进展[J];中国科学:信息科学;2010年S1期

6 张航;PP型拟合优度检验[J];系统科学与数学;1988年03期

7 余立苹;李云飞;朱世行;;基于高维数据流的异常检测算法[J];计算机工程;2018年01期

8 虞翔;李青;;大数据环境下的高维数据挖掘在入侵检测中的有效应用[J];电脑编程技巧与维护;2016年22期

9 宋玉林;訾雪e

本文编号:2674057


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2674057.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户491e0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com