聚类Knockoff方法控制FDR的高维变量选择
发布时间:2021-06-12 23:48
近年来,随着科学技术的进步,收集到数据的维数也越来越大。因此如何有效地从海量数据中挖掘出有用的信息逐渐成为科学研究的热点问题。尤其是在生物统计以及基因研究的领域,数据的维度通常都是远高于样本数量(n>>p),又称之为超高维数据。目前统计学中的多数方法以及很多机器学习中的算法只能适用于低维数据,而高维以及超高维领域的研究却相对较少。在超高维的研究范畴中,通常会先将数据的维度降低到可以处理的范围,然后再进行下一步的运算,因此如何提高变量选择的准确性就成为了一个亟待解决的问题。其中,多重检验就是解决这一困难的方法之一,而近年来对于这个领域的研究较少。多重检验的方法最常用的是通过控制整体错误率(FWER)或错误发现率(FDR)来控制第一类错误率,即在FWER或FDR不超过某一阈值的条件下进行变量选择。Barber和Candes(2014)[1]首次提出了采用knockoff的方法来控制FDR,并发现其检验功效比经典BH方法更好,在多重检验这一领域产生了一定的突破。而这种方法只能应用在低维数据当中,即约束了n<p,这一约束使其不能很好的在生物统计以及其他一些高维领域的得到应用。...
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图1:?LASSO优化过程的二维映射图??
图2:原始变量和knockoff变量的交换性??
图3:?knockoff变量选择结果??
【参考文献】:
期刊论文
[1]基于DNA微阵列数据的癌症分类问题研究进展[J]. 于化龙,顾国昌,赵靖,刘海波,沈晶. 计算机科学. 2010(10)
[2]一种SRBCT亚型识别与特征基因选取方法[J]. 何爱香,朱云华,安凯. 计算机工程与应用. 2007(03)
[3]Permutation Test在假设检验中的应用[J]. 荀鹏程,赵杨,易洪刚,柏建岭,于浩,陈峰. 数理统计与管理. 2006(05)
[4]微阵列数据的多重比较[J]. 荀鹏程,赵杨,柏建岭,易洪刚,于浩,陈峰. 中国卫生统计. 2006(01)
[5]基因微阵列数据的聚类分析算法研究[J]. 马煜,陈莉,欧立奇. 计算机工程与应用. 2006(05)
[6]小圆蓝细胞瘤预测模型研究[J]. 阮晓钢,李鹏. 北京工业大学学报. 2005(01)
[7]基于基因表达谱的SRBCT分类研究[J]. 朱云华,李颖新,阮晓钢. 计算机工程与应用. 2005(01)
[8]数据挖掘中变量聚类方法的应用研究[J]. 汤效琴,戴汝源,徐琪. 计算机工程与应用. 2004(24)
[9]DNA微阵列(或芯片)技术原理及应用[J]. 何志巍,姚开泰. 生物化学与生物物理进展. 1999(05)
硕士论文
[1]基于FDR控制的多重假设检验及其应用研究[D]. 张黎.北京工业大学 2017
[2]多重检验技术及其在微阵列数据分析中的应用[D]. 陈昊.华东交通大学 2016
[3]超高维数据的特征筛选研究[D]. 李星祥.南京信息工程大学 2016
[4]多重检验相关研究及其在生物数据上的应用[D]. 李伟.山东大学 2014
[5]多重假设检验中错误率控制过程的分析[D]. 杨柳.黑龙江大学 2009
[6]生物统计中多重检验问题的分析研究[D]. 姜凌.山东大学 2008
[7]多重假设检验问题中关于三种错误测度-FWER,FDR和pFDR的讨论[D]. 裴艳波.东北师范大学 2005
[8]基于基因表达谱的小圆蓝细胞瘤亚型识别研究[D]. 朱云华.北京工业大学 2005
本文编号:3226546
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图1:?LASSO优化过程的二维映射图??
图2:原始变量和knockoff变量的交换性??
图3:?knockoff变量选择结果??
【参考文献】:
期刊论文
[1]基于DNA微阵列数据的癌症分类问题研究进展[J]. 于化龙,顾国昌,赵靖,刘海波,沈晶. 计算机科学. 2010(10)
[2]一种SRBCT亚型识别与特征基因选取方法[J]. 何爱香,朱云华,安凯. 计算机工程与应用. 2007(03)
[3]Permutation Test在假设检验中的应用[J]. 荀鹏程,赵杨,易洪刚,柏建岭,于浩,陈峰. 数理统计与管理. 2006(05)
[4]微阵列数据的多重比较[J]. 荀鹏程,赵杨,柏建岭,易洪刚,于浩,陈峰. 中国卫生统计. 2006(01)
[5]基因微阵列数据的聚类分析算法研究[J]. 马煜,陈莉,欧立奇. 计算机工程与应用. 2006(05)
[6]小圆蓝细胞瘤预测模型研究[J]. 阮晓钢,李鹏. 北京工业大学学报. 2005(01)
[7]基于基因表达谱的SRBCT分类研究[J]. 朱云华,李颖新,阮晓钢. 计算机工程与应用. 2005(01)
[8]数据挖掘中变量聚类方法的应用研究[J]. 汤效琴,戴汝源,徐琪. 计算机工程与应用. 2004(24)
[9]DNA微阵列(或芯片)技术原理及应用[J]. 何志巍,姚开泰. 生物化学与生物物理进展. 1999(05)
硕士论文
[1]基于FDR控制的多重假设检验及其应用研究[D]. 张黎.北京工业大学 2017
[2]多重检验技术及其在微阵列数据分析中的应用[D]. 陈昊.华东交通大学 2016
[3]超高维数据的特征筛选研究[D]. 李星祥.南京信息工程大学 2016
[4]多重检验相关研究及其在生物数据上的应用[D]. 李伟.山东大学 2014
[5]多重假设检验中错误率控制过程的分析[D]. 杨柳.黑龙江大学 2009
[6]生物统计中多重检验问题的分析研究[D]. 姜凌.山东大学 2008
[7]多重假设检验问题中关于三种错误测度-FWER,FDR和pFDR的讨论[D]. 裴艳波.东北师范大学 2005
[8]基于基因表达谱的小圆蓝细胞瘤亚型识别研究[D]. 朱云华.北京工业大学 2005
本文编号:3226546
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3226546.html