当前位置:主页 > 经济论文 > 经济管理论文 >

基于嵌入式稀疏特征选择策略的降维算法研究

发布时间:2020-06-29 17:03
【摘要】:高通量生物技术的发展产生了大量的高维小样本生物大数据。在生物医学“大数据”领域中,特征选择算法是解决维数灾难的有效方法之一,已被广泛应用于基因筛选、遗传位点分析等具体问题。本文首先概述性地介绍了特征选择算法及四种常用的分类器模型,然后围绕嵌入式稀疏特征选择策略的降维算法从以下两个方面展开论述:一是联合重抽样技术与嵌入式特征选择算法,构造了一种基于统计显著性水平的特征选择与排序算法,可以对遗传位点问题按等位基因可加效应和杂合效应模型编码的数据进行关键致病位点选择分析;二是结合特征排序算法和可固定用户自定义特征子集的算法构造了一种新的特征选择算法。针对生物遗传学中的遗传位点分析问题,本文给出了基于Lasso惩罚估计的Logistic回归模型以及基于重抽样技术的Lasso惩罚回归算法流程。在某疾病遗传位点编码数据上的实验分析中,列出了挑选的特征集以及在5-折交叉验证方式下四种分类器间分类性能的比较,同时我们还对排名前30的位点利用四种常用分类器进行了逐步增加特征个数的5-折交叉验证,发现可以在最少利用27个位点的条件下对疾病分类准确性达到最高68.13%。最后,我们还按等位基因可加效应和杂合效应两种编码方式下的数据进行了关键致病位点选择分析,并在GWAS研究数据库GWAS Central中对挑选出的特征进行了生物学意义分析,发现其被报道与肿瘤,高血压,肥胖等多种遗传复杂疾病有密切联系,从而进一步验证了结果的可信度。针对特征排序算法在基因表达谱数据中选取的特征子集容易产生冗余特征的问题,论文结合t检验排序法与SubLasso算法提出了一种特征选择算法。在与取排名靠前且特征个数相同的3个常见单特征排序算法比较时,新方法在15个常见基因表达谱数据集上分类表现占优;同时选出了具有非常好的分类性能的特征子集,在不同的分类器上取得了稳健的分类效果。新算法固定t检验排序法挑选出的特征作为预定义特征,可以将某些在特征排序算法中排名较低,但与响应变量统计显著相关的特征选择出来。
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C81;F224
【图文】:

准确性,实验数据,分类器,交叉验证


均值结果如表 3.2 所示。4.2 分类准确性为了验证我们所选特征分类能力的稳健性,我们选用了 4 种常用分类器,贝叶斯(NBayes),支持向量机(SVM),K-近邻(KNN)和决策树(DTree)些分类器原理和方法各自有所不同,可以从不同的方面来检验我们所选特征别能力。表 3.3 给出了 14 个特征在 4 个分类器和 5-折交叉验证方式下的分类率。表 3.3 Bootstrap Lasso 挑选特征在 5-折交叉验证方式下的分类性能验证方式 分类器 Se Sp Acc Avc5FCVSVM 68.53% 66.27% 67.40% 67.40%NBayes 68.20% 67.93% 68.07% 68.07%DTree 58.67% 53.93% 56.30% 56.30%KNN 56.53% 57.53% 57.03% 57.03%

【参考文献】

相关期刊论文 前3条

1 李中秋;张汝飞;鲁亚军;;基于Group Bridge组变量选择方法的血压影响因素实证分析[J];数学的实践与认识;2015年22期

2 胡小宁;何晓群;马学俊;;基于Group MCP Logistic模型的个人信用评价分析[J];现代管理科学;2015年08期

3 王小燕;方匡南;谢邦昌;;Logistic回归的双层变量选择研究[J];统计研究;2014年09期

相关博士学位论文 前1条

1 黄东山;特征选择及半监督分类方法研究[D];华中科技大学;2011年

相关硕士学位论文 前2条

1 温学平;基于特征选择的数据降维[D];华中科技大学;2015年

2 周龙;基于朴素贝叶斯的分类方法研究[D];安徽大学;2006年



本文编号:2734109

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jingjiguanlilunwen/2734109.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d68f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com