稀疏性假定下两个高维相关性矩阵的相等性检验
发布时间:2024-02-24 16:24
随着计算机科学的发展,我们获取数据的能力越来越强,数据的获取场景越来越多样化,导致了数据的维度和数据量不断大幅度增加,产生了大量的高维数据问题。这样的高维数据在基因,金融,互联网领域出现得越来越多。例如:在蛋白质的分类问题中,我们往往是通过对蛋白质的基因对进行测序,从而根据不同蛋白质所蕴含的不同的基因对来区分不同种类的蛋白质。但是在实际操作过程中,由于基因测序的成本非常高,导致我们的样本量(n)非常少,但是每个样本所蕴含的基因对(p)却是成千上万,这就产生了一个“小n大p”的问题。对于这样的“小n大p”问题,经典的统计方法往往会失效或者犯第一类错误(原假设为真的情况下拒绝原假设)的概率很大。产生这一现象的原因可以从随机矩阵领域中的Mar?henko-Pastur分布的分布行为中看出:在高维数据的情形下,样本协方差矩阵所对应的特征值的波动开始和总体协方差矩阵所对应的特征值的波动发生显著性的偏差,这使得样本协方差矩阵不再是总体协方差矩阵的有效估计,自然的,高维情形下,样本相关性矩阵也不再是总体相关性矩阵的可靠估计了。这一事实导致许多经典的统计方法在高维数据的情形下表现非常糟糕,在高维统计检...
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
Chapter 1 Introduction
1.1 Background and Significance
1.2 Literature Review
1.3 Our Work
Chapter 2 Limiting Null Distribution of the Test Statistic
2.1 Sparse Settings and Moment Conditions
2.2 Main Result
2.3 Power and Optimality
2.4 Methodology
2.4.1 Limiting Null Distribution of the Test Statistic
2.4.2 Distribution-free Case
Chapter 3 Simulation Studies
Chapter 4 Lemmas and Proofs
4.1 Guassian Approximation
4.2 Consistency of the Normalized Term
4.3 Proof of Theorem 2.1
4.4 Proof of Theorem 2.2
4.5 Proof of Lemma 4.2
4.6 Proof of Lemma 4.3
结论
Conclusions
References
Appendix A Simulations for Gamma Distribution Case
Acknowledgements
本文编号:3909286
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
Chapter 1 Introduction
1.1 Background and Significance
1.2 Literature Review
1.3 Our Work
Chapter 2 Limiting Null Distribution of the Test Statistic
2.1 Sparse Settings and Moment Conditions
2.2 Main Result
2.3 Power and Optimality
2.4 Methodology
2.4.1 Limiting Null Distribution of the Test Statistic
2.4.2 Distribution-free Case
Chapter 3 Simulation Studies
Chapter 4 Lemmas and Proofs
4.1 Guassian Approximation
4.2 Consistency of the Normalized Term
4.3 Proof of Theorem 2.1
4.4 Proof of Theorem 2.2
4.5 Proof of Lemma 4.2
4.6 Proof of Lemma 4.3
结论
Conclusions
References
Appendix A Simulations for Gamma Distribution Case
Acknowledgements
本文编号:3909286
本文链接:https://www.wllwen.com/kejilunwen/yysx/3909286.html