基于综合集成研讨厅的半监督客户关键特征选择模型研究
【部分图文】:
综上所述可知,本文涉及的客户分类数据规模庞大、结构复杂且不同特征对分类模型的性能影响程度相差极大,因此属于复杂的决策问题。要解决此类问题不仅需要大量的数理知识与计算机技术,还需要对各个领域有深刻的理解。基于此,本文引入“综合集成研讨厅”体系(hall for workshop of meta-synthetic engineering,HWME)[17],其核心思想是将多个相关领域的专家集成于专家系统之中,采取人机结合,以人为主的路线。该思想首先从定性的角度出发,将各个不同领域专家的建议进行综合集成,达成共识消除不一致,而后建立统一的定量分析模型,如果集成的定量结果不满意,则重新回到定性分析过程进行循环迭代,直至得到满意的结果,详细流程如图1所示。本文提出了基于综合集成研讨厅的半监督客户关键特征选择模型(semi-supervised key feature selection of customers based on hall for workshop of meta-synthetic engineering,SFS-HWME)。在四个客户分类数据集上的实证分析结果表明,本文提出的SFS-HWME模型在客户关键特征选择性能上优于已有的模型。基于SFS-HWME的半监督客户关键特征选择模型
由于本文研究的客户关键特征选择是一个复杂系统问题,因此引入综合集成研讨厅复杂系统分析方法论,提出了基于综合集成研讨厅的半监督客户关键特征选择模型SFS-HWME。设L为某客户分类问题的初始有类别标签训练集,U为大量无类别标签的数据集,SFS-HWME包含以下步骤:(1)确定研究难点与备选方案。邀请5位专家研讨,确定了本文问题的三个难点,进一步地,找到解决每个难点的备选方案。(2)综合集成。将5位专家的意见进行系统性集成并达成共识,从而得到整体解决方案。(3)建立定量分析模型。首先利用有类别标签的数据集L训练Adaboost集成模型,然后使用该模型对无类别标签数据集U中的样本进行选择性标记,直到U中被选择性标记的样本占全部样本的百分比超过给定的阈值p,接着使用T次重抽样技术中的随机向上抽样来平衡新的训练集L的类别分布,最后在每个平衡类别分布的训练集上使用GMDH选择最优特征子集。(4)结果评价。邀请5位专家对这T个特征子集做出评价,选出最合理的方案作为本文所涉及的样本的最优解。本文提出的SFS-HWME模型整体操作流程如图2所示。在整个建模过程中,建立定量分析模型是最复杂的,而类别标签拓展机制和GMDH外准则的选择又是定量建模过程中最主要的两个问题,因此,下文将依次对其进行详细描述。
【相似文献】
相关期刊论文 前10条
1 吴国清;莫则尧;陈虹;;一种基于信息测度的科学数据集序列约减方法[J];计算物理;2009年06期
2 崔林丽;陈昭;尹球;唐世浩;刘荣高;;基于模糊集合理论的中国区域土地覆盖数据集融合及精度分析[J];长江流域资源与环境;2014年11期
3 易昆南;袁中萸;;对模拟纵向数据集缺失值处理的几种方法比较[J];湖南工业大学学报;2008年02期
4 庞明勇,卢章平;局部数据集与噪声数据曲线的平滑过滤[J];矿山测量;2001年04期
5 周金革;熊海鸥;郭开仲;;错误数据集的变换研究[J];数学的实践与认识;2014年11期
6 刘鹏;叶宾;;面向高维缺失数据集的线性判别分析方法[J];常州大学学报(自然科学版);2020年02期
7 王莹莹;汪静;涂韬;;云环境下中间数据集存储问题代价最小化算法研究[J];软件导刊;2019年12期
8 柳金甫;怎样处理异常数据[J];中国统计;1995年07期
9 崔玉泉,马建华,李振波;对一类数据集识别问题的探究[J];山东大学学报(理学版);2004年05期
10 陈文琴,詹平;散乱分布数据集的插值及等值线绘制[J];中国农村水利水电;1998年06期
相关硕士学位论文 前10条
1 秦晶晶;基于决策树的不平衡数据集分类问题研究[D];上海交通大学;2017年
2 张健;剪枝和网格采样相结合的非平衡数据集分类方法[D];安徽大学;2012年
3 陈莲;大规模社交网络中二元关系预测方法研究[D];电子科技大学;2014年
4 刘丰胜;基于粗糙集的客户分类方法研究[D];重庆大学;2006年
5 朱凯莉;基于特征选择的数据驱动水库动态调度决策算法研究[D];浙江工业大学;2019年
6 任秀伟;基于嵌入式稀疏特征选择策略的降维算法研究[D];湖北工业大学;2018年
7 陈文雯;基于Sparse group lasso相关惩罚项特征选择研究[D];浙江大学;2018年
8 王永响;多肽鉴定问题基于分类的非凸优化算法研究[D];中国石油大学(华东);2018年
9 钱唯;复杂网络中基于模式的链接预测[D];东南大学;2016年
10 姜君;CIECAM02的若干问题及解决办法[D];辽宁科技大学;2015年
本文编号:2847620
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/2847620.html