基于数据挖掘的员工流失预测研究
发布时间:2021-10-02 01:37
一个企业的成功不仅仅是靠偶然的运气,更多的是靠团队的努力,靠员工对公司的奋斗,正是这些因素使公司可以做强做大。由此看来,员工对企业的重要性不言而喻。虽然“旧人去,新人来”的现象在企业中很普遍,一定范围内的员工流动对企业的生存发展没有太大影响,而且可能会让企业充满生机,增强员工活力,但高比例的员工流失,不仅会增加企业的财政负担,而且由于新员工对于公司业务不熟悉而导致的效率低下所产生的一系列经济损失,严重来说,甚至可能会造成公司核心机密泄露,从而使企业陷入困境。如果对这种问题不加以有效的控制,最终将会对企业的可持续健康发展造成影响,甚至有可能会让企业轰然倒下。因此,帮助企业建立一个合理高效的员工流失预测模型,帮助企业锁定具有高流失倾向的员工,减少损失,显得尤为重要。本文以XYZ公司所提供的4410条人力资源员工数据为基础,借助SPSS Statistics 20.0软件,在对数据进行类型转换、删除缺失值等预处理工作后,运用SPSS Modeler 18.0软件,对无关变量进行剔除,再对剔除后的变量进行单变量流失预测能力检验,最后采用正态分布检验和两独立样本非参数检验确定最终预测建模指标,采...
【文章来源】:长江大学湖北省
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图2-2支持向量机数学模型
第2章数据挖掘理论82maxb,(2-1)s.t.ii,,2,101))*((nibxy,(2-2)显然,要想使2/||ω||取得最大值其实就是要让||ω||最校则公式(2-1)也可这样写:2,21minb(2-3)s.t.ii,,2,101))*((nibxy,(2-4)之后可以使用Lagrange系数方法对公式(2-3)和公式(2-4)进行求解,得到ω和b的最优值ω*、b*。最后得到决策函数:)sgn()(**bxxf(2-5)然而在现实中,实际遇到的问题可能没有像图2-2中那样乐观,在现实中很难遇到合适的核函数使训练集在样本空间中线性可分,这时候就是线性不可分问题,如图2-3所示。图2-3线性不可分Figure2-3LinearInseparability线性不可分意味着某些样本点落在超平面与边界之间。为解决这一问题,可以对训练集中的所有样本点都引入一个松弛变量i,使所有样本点的间隔都大于等于1,这样限制条件就成为:iii,,2,1-1))*((nibxy,(2-6)其中,i0。同时,每引入一个松弛变量i,支付一个代价i0,则目标函数就变为:
第2章数据挖掘理论15图2-4ROC曲线Figure2-4ROCCurveROC曲线下方面积简称为AUC,是评价二分类模型性能的一个可靠的整体度量。AUC值的范围为0.0到1.0。若AUC<0.5,不符合真实情况,在实际生活中很少出现;若AUC=0.5,说明建立的模型没有参考价值;在AUC值>0.5的情况下,AUC越接近1,说明二分类预测模型的效果越好;AUC在0.5到0.7之间,说明模型的预测效果准确性较低;AUC在0.7到0.9之间,说明模型的预测效果虽然具有一定的准确性,但是有待提高;AUC值>0.9时,说明模型有非常好的效果。2.4本章小结本章主要介绍了数据挖掘相关理论。首先系统介绍了数据挖掘概念、任务和流程,接着介绍了分类建模原理,之后重点介绍了本文使用的支持向量机算法、随机森林算法、C5.0决策树算法和朴素贝叶斯算法,最后讲述模型评价方法,即混淆矩阵、ROC曲线和AUC值。
【参考文献】:
期刊论文
[1]随机森林模型分析大学生体质健康影响因素:来源于同济大学568名学生的问卷调查[J]. 冯敏,冯辉,张一雨,王乐军. 中国组织工程研究. 2019(23)
[2]公立医院人员流失因素分析及对策研究[J]. 王玉芳,张彤,朱虹,钱玉琪. 江苏卫生事业管理. 2019(05)
[3]小米智能手机定价现状及问题分析——基于随机森林模型[J]. 段刚龙,张兴冉,马鑫,王建仁. 当代经济. 2019(05)
[4]Study on Prediction Model of Number of Rainstorm Days in Summer Based on C5.0 Decision Tree Algorithm[J]. Shi Yimin,Chen Weiwei,Zhu Yunfeng. Meteorological and Environmental Research. 2019(02)
[5]基于朴素贝叶斯的高校教师工作量考核分类预测研究[J]. 刘占波,闫实,王晓丽. 软件. 2019(03)
[6]基于支持向量机模型的地铁进站客流量预测[J]. 郭文,肖为周,秦菲菲. 河北工业科技. 2019(01)
[7]一种基于朴素贝叶斯分类算法的数据预测[J]. 刁海军,尹钊. 电大理工. 2018(04)
[8]医院骨干人才流失的原因及其对策探讨[J]. 倪婧妍,邵茵,张颖,蔡璇斐. 江苏卫生事业管理. 2018(06)
[9]电信客户流失的组合预测模型[J]. 余路. 华侨大学学报(自然科学版). 2016(05)
[10]数据挖掘中SVM模型与贝叶斯模型的比较分析——基于电信客户的流失分析[J]. 张慧,徐勇. 平顶山学院学报. 2016(02)
硕士论文
[1]基于财经新闻文本数据挖掘的股市预测研究[D]. 雍舜.浙江财经大学 2019
[2]基于算法融合的客户流失预测方法研究[D]. 赵婷婷.东北财经大学 2018
[3]基于随机森林与GBDT的社会医疗保险欺诈识别问题研究[D]. 裴晨.东北财经大学 2018
[4]基于数据挖掘的陌生人社交APP用户流失预测模型研究[D]. 钟文鑫.首都经济贸易大学 2018
[5]基于COX比例风险模型的在线游戏玩家流失预测研究[D]. 王娇.暨南大学 2018
[6]基于Price-Mueller(2000)模型的L公司人才流失问题研究[D]. 张妍.青岛大学 2018
[7]基于数据挖掘的用户流失预测[D]. 游子吟.南京师范大学 2018
[8]数据挖掘在电信客户分析中的应用研究[D]. 南晓敏.西安理工大学 2016
[9]基于COX模型的某跨国企业人员流失预测模型研究[D]. 杜彩兰.大连理工大学 2016
[10]基于决策树的员工流失预警信息系统研究[D]. 何正强.成都理工大学 2016
本文编号:3417748
【文章来源】:长江大学湖北省
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图2-2支持向量机数学模型
第2章数据挖掘理论82maxb,(2-1)s.t.ii,,2,101))*((nibxy,(2-2)显然,要想使2/||ω||取得最大值其实就是要让||ω||最校则公式(2-1)也可这样写:2,21minb(2-3)s.t.ii,,2,101))*((nibxy,(2-4)之后可以使用Lagrange系数方法对公式(2-3)和公式(2-4)进行求解,得到ω和b的最优值ω*、b*。最后得到决策函数:)sgn()(**bxxf(2-5)然而在现实中,实际遇到的问题可能没有像图2-2中那样乐观,在现实中很难遇到合适的核函数使训练集在样本空间中线性可分,这时候就是线性不可分问题,如图2-3所示。图2-3线性不可分Figure2-3LinearInseparability线性不可分意味着某些样本点落在超平面与边界之间。为解决这一问题,可以对训练集中的所有样本点都引入一个松弛变量i,使所有样本点的间隔都大于等于1,这样限制条件就成为:iii,,2,1-1))*((nibxy,(2-6)其中,i0。同时,每引入一个松弛变量i,支付一个代价i0,则目标函数就变为:
第2章数据挖掘理论15图2-4ROC曲线Figure2-4ROCCurveROC曲线下方面积简称为AUC,是评价二分类模型性能的一个可靠的整体度量。AUC值的范围为0.0到1.0。若AUC<0.5,不符合真实情况,在实际生活中很少出现;若AUC=0.5,说明建立的模型没有参考价值;在AUC值>0.5的情况下,AUC越接近1,说明二分类预测模型的效果越好;AUC在0.5到0.7之间,说明模型的预测效果准确性较低;AUC在0.7到0.9之间,说明模型的预测效果虽然具有一定的准确性,但是有待提高;AUC值>0.9时,说明模型有非常好的效果。2.4本章小结本章主要介绍了数据挖掘相关理论。首先系统介绍了数据挖掘概念、任务和流程,接着介绍了分类建模原理,之后重点介绍了本文使用的支持向量机算法、随机森林算法、C5.0决策树算法和朴素贝叶斯算法,最后讲述模型评价方法,即混淆矩阵、ROC曲线和AUC值。
【参考文献】:
期刊论文
[1]随机森林模型分析大学生体质健康影响因素:来源于同济大学568名学生的问卷调查[J]. 冯敏,冯辉,张一雨,王乐军. 中国组织工程研究. 2019(23)
[2]公立医院人员流失因素分析及对策研究[J]. 王玉芳,张彤,朱虹,钱玉琪. 江苏卫生事业管理. 2019(05)
[3]小米智能手机定价现状及问题分析——基于随机森林模型[J]. 段刚龙,张兴冉,马鑫,王建仁. 当代经济. 2019(05)
[4]Study on Prediction Model of Number of Rainstorm Days in Summer Based on C5.0 Decision Tree Algorithm[J]. Shi Yimin,Chen Weiwei,Zhu Yunfeng. Meteorological and Environmental Research. 2019(02)
[5]基于朴素贝叶斯的高校教师工作量考核分类预测研究[J]. 刘占波,闫实,王晓丽. 软件. 2019(03)
[6]基于支持向量机模型的地铁进站客流量预测[J]. 郭文,肖为周,秦菲菲. 河北工业科技. 2019(01)
[7]一种基于朴素贝叶斯分类算法的数据预测[J]. 刁海军,尹钊. 电大理工. 2018(04)
[8]医院骨干人才流失的原因及其对策探讨[J]. 倪婧妍,邵茵,张颖,蔡璇斐. 江苏卫生事业管理. 2018(06)
[9]电信客户流失的组合预测模型[J]. 余路. 华侨大学学报(自然科学版). 2016(05)
[10]数据挖掘中SVM模型与贝叶斯模型的比较分析——基于电信客户的流失分析[J]. 张慧,徐勇. 平顶山学院学报. 2016(02)
硕士论文
[1]基于财经新闻文本数据挖掘的股市预测研究[D]. 雍舜.浙江财经大学 2019
[2]基于算法融合的客户流失预测方法研究[D]. 赵婷婷.东北财经大学 2018
[3]基于随机森林与GBDT的社会医疗保险欺诈识别问题研究[D]. 裴晨.东北财经大学 2018
[4]基于数据挖掘的陌生人社交APP用户流失预测模型研究[D]. 钟文鑫.首都经济贸易大学 2018
[5]基于COX比例风险模型的在线游戏玩家流失预测研究[D]. 王娇.暨南大学 2018
[6]基于Price-Mueller(2000)模型的L公司人才流失问题研究[D]. 张妍.青岛大学 2018
[7]基于数据挖掘的用户流失预测[D]. 游子吟.南京师范大学 2018
[8]数据挖掘在电信客户分析中的应用研究[D]. 南晓敏.西安理工大学 2016
[9]基于COX模型的某跨国企业人员流失预测模型研究[D]. 杜彩兰.大连理工大学 2016
[10]基于决策树的员工流失预警信息系统研究[D]. 何正强.成都理工大学 2016
本文编号:3417748
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3417748.html