基于综合集成研讨厅的半监督客户关键特征选择模型研究

发布时间：2020-10-19 19:24

　　客户分类一直是企业客户关系管理(CRM)中最重要的问题之一,而选择出客户的关键特征更是其中的重中之重。在大数据时代,客户数据类别分布不平衡、高维以及大量的无类别标签样本等特征让这一问题变得更为复杂,成为一个复杂的系统性决策问题。为解决这一问题,本文提出基于综合集成研讨厅的半监督客户关键特征选择模型(semi-supervised key feature selection of customers based on hall for workshop of meta-synthetic engineering,SFS-HWME)。该模型邀请5位相关领域的专家确定研究难点并通过定性分析寻找备选方案,然后通过综合集成得到整体解决方案,进一步进行定量分析建模。在定量分析模型中,使用半监督学习(semisupervised learning,SSL)技术,首先使用初始有类别标签的数据集L训练Adaboost集成模型来预测无类别标签数据集U中样本的类别;接着,使用自组织映射(self-organization map,SOM)算法对数据集U进行聚类并对其中的样本进行选择性标记;然后将这些样本连同标记的类别标签一起添加到数据集L中;最后,使用重抽样技术平衡新的训练集L的类别分布,再训练数据分组处理(group method of data handling,GMDH)深度学习网络选择最优特征子集,并邀请专家从特征子集中选出最合理的。在4个客户分类数据集上进行实证分析,结果表明,和已有的一些模型相比,本文提出的SFS-HWME模型具有更好的关键特征选择性能。
【部分图文】：

流程图,综合集成,体系,流程

综上所述可知，本文涉及的客户分类数据规模庞大、结构复杂且不同特征对分类模型的性能影响程度相差极大，因此属于复杂的决策问题。要解决此类问题不仅需要大量的数理知识与计算机技术，还需要对各个领域有深刻的理解。基于此，本文引入“综合集成研讨厅”体系(hall for workshop of meta-synthetic engineering,HWME)[17]，其核心思想是将多个相关领域的专家集成于专家系统之中，采取人机结合，以人为主的路线。该思想首先从定性的角度出发，将各个不同领域专家的建议进行综合集成，达成共识消除不一致，而后建立统一的定量分析模型，如果集成的定量结果不满意，则重新回到定性分析过程进行循环迭代，直至得到满意的结果，详细流程如图1所示。本文提出了基于综合集成研讨厅的半监督客户关键特征选择模型(semi-supervised key feature selection of customers based on hall for workshop of meta-synthetic engineering,SFS-HWME)。在四个客户分类数据集上的实证分析结果表明，本文提出的SFS-HWME模型在客户关键特征选择性能上优于已有的模型。基于SFS-HWME的半监督客户关键特征选择模型

流程图,流程,模型,类别

由于本文研究的客户关键特征选择是一个复杂系统问题，因此引入综合集成研讨厅复杂系统分析方法论，提出了基于综合集成研讨厅的半监督客户关键特征选择模型SFS-HWME。设L为某客户分类问题的初始有类别标签训练集，U为大量无类别标签的数据集，SFS-HWME包含以下步骤:(1)确定研究难点与备选方案。邀请5位专家研讨，确定了本文问题的三个难点，进一步地，找到解决每个难点的备选方案。(2)综合集成。将5位专家的意见进行系统性集成并达成共识，从而得到整体解决方案。(3)建立定量分析模型。首先利用有类别标签的数据集L训练Adaboost集成模型，然后使用该模型对无类别标签数据集U中的样本进行选择性标记，直到U中被选择性标记的样本占全部样本的百分比超过给定的阈值p，接着使用T次重抽样技术中的随机向上抽样来平衡新的训练集L的类别分布，最后在每个平衡类别分布的训练集上使用GMDH选择最优特征子集。(4)结果评价。邀请5位专家对这T个特征子集做出评价，选出最合理的方案作为本文所涉及的样本的最优解。本文提出的SFS-HWME模型整体操作流程如图2所示。在整个建模过程中，建立定量分析模型是最复杂的，而类别标签拓展机制和GMDH外准则的选择又是定量建模过程中最主要的两个问题，因此，下文将依次对其进行详细描述。
【相似文献】

相关期刊论文前10条

1 吴国清;莫则尧;陈虹;;一种基于信息测度的科学数据集序列约减方法[J];计算物理;2009年06期

2 崔林丽;陈昭;尹球;唐世浩;刘荣高;;基于模糊集合理论的中国区域土地覆盖数据集融合及精度分析[J];长江流域资源与环境;2014年11期

3 易昆南;袁中萸;;对模拟纵向数据集缺失值处理的几种方法比较[J];湖南工业大学学报;2008年02期

4 庞明勇,卢章平;局部数据集与噪声数据曲线的平滑过滤[J];矿山测量;2001年04期

5 周金革;熊海鸥;郭开仲;;错误数据集的变换研究[J];数学的实践与认识;2014年11期

6 刘鹏;叶宾;;面向高维缺失数据集的线性判别分析方法[J];常州大学学报(自然科学版);2020年02期

7 王莹莹;汪静;涂韬;;云环境下中间数据集存储问题代价最小化算法研究[J];软件导刊;2019年12期

8 柳金甫;怎样处理异常数据[J];中国统计;1995年07期

9 崔玉泉,马建华,李振波;对一类数据集识别问题的探究[J];山东大学学报(理学版);2004年05期

10 陈文琴,詹平;散乱分布数据集的插值及等值线绘制[J];中国农村水利水电;1998年06期

相关硕士学位论文前10条

1 秦晶晶;基于决策树的不平衡数据集分类问题研究[D];上海交通大学;2017年

2 张健;剪枝和网格采样相结合的非平衡数据集分类方法[D];安徽大学;2012年

3 陈莲;大规模社交网络中二元关系预测方法研究[D];电子科技大学;2014年

4 刘丰胜;基于粗糙集的客户分类方法研究[D];重庆大学;2006年

5 朱凯莉;基于特征选择的数据驱动水库动态调度决策算法研究[D];浙江工业大学;2019年

6 任秀伟;基于嵌入式稀疏特征选择策略的降维算法研究[D];湖北工业大学;2018年

7 陈文雯;基于Sparse group lasso相关惩罚项特征选择研究[D];浙江大学;2018年

8 王永响;多肽鉴定问题基于分类的非凸优化算法研究[D];中国石油大学(华东);2018年

9 钱唯;复杂网络中基于模式的链接预测[D];东南大学;2016年

10 姜君;CIECAM02的若干问题及解决办法[D];辽宁科技大学;2015年

本文编号：2847620

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/2847620.html

上一篇：湖南省林产品行业与物流业耦合协调研究
下一篇：中金所三大股指期货价格发现功能的比较研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|