当前位置:主页 > 科技论文 > 数学论文 >

超高维特征筛选方法SEVIS及其应用

发布时间:2018-01-30 07:28

  本文关键词: 超高维数据 特征筛选 SEVIS 非参数估计 高频夏普比率 出处:《中国科学技术大学》2017年博士论文 论文类型:学位论文


【摘要】:随着科技水平的飞速发展和数据收集能力的大幅提高,超高维数据(即变量个数p远大于样本个数n)已经越来越频繁地出现在包括金融学,基因学等各个领域中.在这样的大数据时代背景下,如何从超高维数据中筛选出真正重要的变量成为许多相关行业研究者们广泛关注的一个问题.而在处理此类问题时,传统的罚函数方法普遍在计算复杂性,统计准确性与算法稳定性等方面存在不足(见Fan et al.[13]).与罚函数思想不同,特征筛选的核心思想在于通过排除那些明显与因变量不相关的变量来达到降低维度的目的.在本文第二章中,我们提出一个新的特征筛选方法SEVIS(Sure Explained Variability and Independence Screening).与大多数基于中心性出发的特征筛选方法不同,SEVIS考虑的是统计推断中另一个重要的性质:变异性.因此,SEVIS在处理非对称,非线性数据时要在一定程度上优于之前的特征筛选模型.在该章中,我们给出SEVIS的一个非参数核估计方法并证明在该估计方法下,SEVIS满足特征筛选领域最重要的两个性质:确保筛选性(sure screening property)和秩相合性(ranking consistency property).另外,SEVIS 还是一种无模型(model-free)方法,即不需要事先指定因变量和自变量之间的相依关系,无模型方法相比许多基于模型出发(model-based)的特征筛选方法,其优势在于不会出现错误假定模型结构的问题.同时,我们还将SEVIS方法同几个具有代表性的无模型特征筛选方法进行比较以检验其有限样本性质,从几组蒙特卡洛模拟的结果可以看出,SEVIS在当数据存在交互项,异方差,删失等许多情况下都能取得比对照方法更好的结果.一组关于卵巢癌基因的实证数据也能够说明,SEVIS方法所选择的基因不但对因变量更具解释能力,并且在与其它方法选择的基因互相解释时也具有更强的解释能力.考虑到用核函数对非参数部分进行估计的方式仍存在进一步改进的空间.因此,在第三章中,我们将SEVIS的核估计方法调整为局部线性估计,并考虑部分特殊情况下的特征筛选过程.结果显示,基于局部线性估计的SEVIS方法在准确性和运行效率上都要略微优于基于核估计的SEVIS方法.考虑到在可投资资产种类大幅增加的现代金融环境下,基于均值方差模型的传统估计方式的误差较大.因此,在第四章中,我们将SEVIS方法运用到金融领域的资产选择过程之中,给出一种新的组合构造方式.简单来说,我们先基于全市场所有可投资资产的日内高频数据构造一个新的日内高频夏普比率,然后结合SEVIS方法进行初步的资产选择,以挑选出历史走势高度相关于该指数的资产.值得一提的是,包括SEVIS在内的现有特征筛选方法均是在假定样本独立同分布这一前提下进行的,考虑到金融数据通常是一组时间序列而非独立样本.因此,在将SEVIS运用到实际资产选择之前,我们先将其推广到相依变量中,证明SEVIS在平稳α混合序列的条件下同样拥有确保筛选性和秩相合性,并通过几组蒙特卡洛模拟对其有限样本表现进行验证.在该章的最后,我们通过对中国股市2014-15年的数据进行实证检验,结果证实我们的方法确实可以获得一定程度的超额收益.
[Abstract]:With the rapid development of scientific and technological level and the increase of data collection ability , the data of ultra - high dimension ( i.e . the number of variables p is much larger than the number of samples ) has appeared more and more frequently in various fields including finance and genetics . Unlike the idea of penalty function , the core idea of characteristic screening is to achieve the goal of reducing dimension by excluding those which are not related to the dependent variables . In chapter 2 of this paper , we propose a new characteristic screening method SEVIS . Unlike most of the central - based feature screening methods , SEVIS is considered another important property in statistical inference : variability . Therefore , SEVIS is somewhat superior to previous feature screening models when dealing with asymmetric , non - linear data . In this chapter , we present a non - parametric kernel estimation method for SEVIS and demonstrate that SEVIS satisfies two of the most important properties in the domain of feature selection : ensuring screening property and rank consistency property . In chapter 3 , we apply the SEVIS method to the asset selection process based on the mean variance model .

【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:O212

【相似文献】

相关期刊论文 前10条

1 武森;冯小东;吴庆海;;基于稀疏指数排序的高维数据并行聚类算法[J];系统工程理论与实践;2011年S2期

2 杨力行 ,刘金清;投影寻踪应用技术在水文领域中喜获丰收[J];水文;1993年02期

3 蔡利平;周绪川;;高维数据上的自适应谱聚类降维方法研究[J];西南民族大学学报(自然科学版);2010年05期

4 毛林;陆全华;程涛;;基于高维数据的集成逻辑回归分类算法的研究与应用[J];科技通报;2013年12期

5 陈晓明;;海量高维数据下分布式特征选择算法的研究与应用[J];科技通报;2013年08期

6 刘立月;黄兆华;刘遵雄;;高维数据分类中的特征降维研究[J];江西师范大学学报(自然科学版);2012年02期

7 李祚泳;投影寻踪技术及其应用进展[J];自然杂志;1997年04期

8 王家耀;谢明霞;郭建忠;陈科;;基于相似性保持和特征变换的高维数据聚类改进算法[J];测绘学报;2011年03期

9 张娇;裘国永;张奇;;基于二分K均值的SVM决策树的高维数据分类方法[J];赤峰学院学报(自然科学版);2012年07期

10 周迪斌;蒋健明;胡斌;张量;;基于多GPU的千万级高维空间实时检索[J];科技通报;2013年01期

相关会议论文 前6条

1 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年

2 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

3 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

4 刘运涛;鲍玉斌;吴丹;冷芳玲;孙焕良;于戈;;CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

5 刘文慧;;PCA与PLS用于高维数据分类的比较性研究[A];2011年中国卫生统计学年会会议论文集[C];2011年

6 刘喜兰;冯德益;王公恕;朱成喜;冯雯;;脸谱分析在中进期地震跟踪预报中的应用[A];中国地震学会第四次学术大会论文摘要集[C];1992年

相关重要报纸文章 前1条

1 本报记者 李双艺;引领高维数据分析先河[N];吉林日报;2013年

相关博士学位论文 前10条

1 刘胜蓝;余弦度量下的高维数据降维及分类方法研究[D];大连理工大学;2015年

2 黄晓辉;高维数据的若干聚类问题及算法研究[D];哈尔滨工业大学;2015年

3 杨崇;高维数据流上的K近邻问题研究[D];山东大学;2016年

4 路梅;面向高维数据的特征学习理论与应用研究[D];苏州大学;2016年

5 徐微微;高维数据降维可视化研究及其在生物医学中的应用[D];武汉大学;2016年

6 连亦e,

本文编号:1475668


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/1475668.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户509f7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com