基于基因表达小样本数据的级联森林分类模型
发布时间:2021-06-05 22:08
针对分类模型在处理基因表达小样本高维度数据集上存在的分类准确性不足、过拟合、计算复杂度大等问题,提出一种改进模型Two Boosting Deep Forest(TBDForest)。在多描部分采用均等式特征利用方法对原始特征进行变换;在分类过程中考虑到模型所集成的每个森林的拟合质量,将上层最重要的部分判别特征输入到下一级联层,在层间改善类分布问题;对原级联层采用子层级联的结构,增加样本训练机会,减少训练开销,避免模型对参数的依赖。通过在五种疾病基因表达小样本数据集上的验证结果表明,改进的模型增强分类算法在小样本数据集的分类性能上达到了更好的分类效果。
【文章来源】:计算机应用与软件. 2020,37(11)北大核心
【文章页数】:7 页
【部分图文】:
深度森林模型的多粒度扫描模块
级联森林部分是一个通过加入新特征来对原始特征进行扩展的结构,由多个级联层组成,每个级联层包括两个随机森林和两个完全随机森林,如图2所示。原始特征经过每个级联层后的输出与原特征组合成扩展后的特征作为下一个级联层的输入[6]。该模型在一级结束后做一个分类性能的测试,然后继续生成下一级,当扩展一个新的级联层后,将整个模型的性能在验证集中进行测试,若没有显著的分类性能增益,训练过程终止[11],级联层数就确定了。级联结构增加了模型的深度而不引入额外的参数,通过评估每层的性能自适应地确定级联层的数量,因此超参数较少,而且超参数设定具有很好的鲁棒性。2 小样本数据集分类模型的改进
原始深度森林模型中级联部分包含的随机森林和完全随机森林都是决策树的集合,均是由随机选择一个特征在决策树的各节点来分割,树不断生长,每个决策树输出一个类向量,最后随机森林组合所有决策树的投票结果后取平均值,得到森林整体的分类结果。本文的级联网络中各层使用两个随机森林和两个完全随机森林,两种森林均由500个决策树以及完全随机决策树构成。每个决策树决策过程[12]如图3所示,假定有三个类,n个决策树,每个决策树将确定一个三维类向量,然后取n个三维类向量的平均值,最后得到最大值对应的类别作为决策树最终的分类结果。随机森林中的子树是在整体特征中随机选取的部分特征,因此这些决策树彼此不同,并且各随机森林也有各自的多样性。那么,选取合适的判别特征来构建决策树的分裂点非常重要。然而在原始模型的级联层中,每个森林对最终预测结果的贡献是相同的,在学习过程中未考虑各自的拟合质量,忽略了一些重要特征,因此可能导致在小规模数据集中的模型整体性能对森林数量较为敏感。本文改进时考虑到随机森林在作特征选择时,能够隐含地提供分类过程中的特征相对重要性排序列表,从而新模型基于级联森林模块进行如下的改进:
【参考文献】:
期刊论文
[1]一种加权的深度森林算法[J]. 宫振华,王嘉宁,苏翀. 计算机应用与软件. 2019(02)
[2]基于改进深度森林算法的软件缺陷预测[J]. 薛参观,燕雪峰. 计算机科学. 2018(08)
[3]改进SMOTE的非平衡数据集分类算法研究[J]. 赵清华,张艺豪,马建芬,段倩倩. 计算机工程与应用. 2018(18)
[4]改进SVM-KNN的不平衡数据分类[J]. 王超学,张涛,马春森. 计算机工程与应用. 2016(04)
博士论文
[1]面向医学数据的随机森林特征选择及分类方法研究[D]. 姚登举.哈尔滨工程大学 2016
硕士论文
[1]基于Lasso-PCA及改进自适应遗传神经网络的电力负荷预测研究[D]. 张航飞.燕山大学 2018
[2]随机森林分类算法的改进及其应用研究[D]. 怀听听.中国计量大学 2016
本文编号:3213009
【文章来源】:计算机应用与软件. 2020,37(11)北大核心
【文章页数】:7 页
【部分图文】:
深度森林模型的多粒度扫描模块
级联森林部分是一个通过加入新特征来对原始特征进行扩展的结构,由多个级联层组成,每个级联层包括两个随机森林和两个完全随机森林,如图2所示。原始特征经过每个级联层后的输出与原特征组合成扩展后的特征作为下一个级联层的输入[6]。该模型在一级结束后做一个分类性能的测试,然后继续生成下一级,当扩展一个新的级联层后,将整个模型的性能在验证集中进行测试,若没有显著的分类性能增益,训练过程终止[11],级联层数就确定了。级联结构增加了模型的深度而不引入额外的参数,通过评估每层的性能自适应地确定级联层的数量,因此超参数较少,而且超参数设定具有很好的鲁棒性。2 小样本数据集分类模型的改进
原始深度森林模型中级联部分包含的随机森林和完全随机森林都是决策树的集合,均是由随机选择一个特征在决策树的各节点来分割,树不断生长,每个决策树输出一个类向量,最后随机森林组合所有决策树的投票结果后取平均值,得到森林整体的分类结果。本文的级联网络中各层使用两个随机森林和两个完全随机森林,两种森林均由500个决策树以及完全随机决策树构成。每个决策树决策过程[12]如图3所示,假定有三个类,n个决策树,每个决策树将确定一个三维类向量,然后取n个三维类向量的平均值,最后得到最大值对应的类别作为决策树最终的分类结果。随机森林中的子树是在整体特征中随机选取的部分特征,因此这些决策树彼此不同,并且各随机森林也有各自的多样性。那么,选取合适的判别特征来构建决策树的分裂点非常重要。然而在原始模型的级联层中,每个森林对最终预测结果的贡献是相同的,在学习过程中未考虑各自的拟合质量,忽略了一些重要特征,因此可能导致在小规模数据集中的模型整体性能对森林数量较为敏感。本文改进时考虑到随机森林在作特征选择时,能够隐含地提供分类过程中的特征相对重要性排序列表,从而新模型基于级联森林模块进行如下的改进:
【参考文献】:
期刊论文
[1]一种加权的深度森林算法[J]. 宫振华,王嘉宁,苏翀. 计算机应用与软件. 2019(02)
[2]基于改进深度森林算法的软件缺陷预测[J]. 薛参观,燕雪峰. 计算机科学. 2018(08)
[3]改进SMOTE的非平衡数据集分类算法研究[J]. 赵清华,张艺豪,马建芬,段倩倩. 计算机工程与应用. 2018(18)
[4]改进SVM-KNN的不平衡数据分类[J]. 王超学,张涛,马春森. 计算机工程与应用. 2016(04)
博士论文
[1]面向医学数据的随机森林特征选择及分类方法研究[D]. 姚登举.哈尔滨工程大学 2016
硕士论文
[1]基于Lasso-PCA及改进自适应遗传神经网络的电力负荷预测研究[D]. 张航飞.燕山大学 2018
[2]随机森林分类算法的改进及其应用研究[D]. 怀听听.中国计量大学 2016
本文编号:3213009
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3213009.html
最近更新
教材专著