基于混合遗传集成学习的人力资源推荐算法
发布时间:2020-12-30 23:44
近年来,各大人力资源服务企业积极布局互联网招聘市场,使得行业的同质化竞争加剧。为了提升自身优势,企业需要为用户提供更加精准的推荐服务,这就要求在线招聘平台具有性能更好的人力资源推荐算法。因此,本文从实际的业务场景出发,对人力资源数据进行采集、预处理和存储,构建人力资源数据仓库,同时结合用户信息、行为信息和岗位信息,研究基于混合遗传集成学习的人力资源推荐算法,主要工作内容包括以下三点:(1)数据采集与预处理:本文研究与实现了一种数据预处理方法,该方法将人力资源平台采集到的数据进行清洗、集成、规约和变换等预处理操作,保证数据仓库中数据的准确性、完整性、一致性和可用性。(2)数据存储与数据仓库:本文提出了基于分布式列式存储的人力资源数据并行处理技术,在分布式列式存储上设计并实现了人力资源数据仓库,并在Spark框架上进行了算法并行化实现。(3)人力资源推荐算法的研究与实现:本文结合矩阵分解协同过滤、选择性集成和混合推荐的思想,提出了基于混合遗传集成学习的人力资源推荐算法。在离线训练中,算法通过选择性集成学习获得分类模型。在实时推荐中,算法首先基于人力资源的隐式反馈,进行矩阵分解协同过滤,获得...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
Bagging算法原理图
图 2-2 boosting 算法原理图2.2.4 选择性集成学习由于集成学习能用多个基分类器得到强的分类器。因此,一种普遍的想法是:能否通过集成数目尽可能多的基分类器来获得具有更强预测分类能力的分类器。但这一做法有明显的缺点。一方面,使用过多的分类器将导致不可估计的计算和存储开销,对于有限的计算资源而言不可行;另一方面,当基分类器数目增加大一定规模之后,由于训练基分类器的数据集之间的差异性降低,会导致分类器之间的相似性越来越大,进而影响集成学习的效果。因此,南京大学周志华教授及其团队提出了选择性集成理论(SelectiveEnsemble)。该理论主要是将训练出的一组分类器,通过一定的方法选择这一组分类器中的一部分进行集成,从而获得比集成所有基分类器更好的效果。以分类任务为例,周志华教授证明了剔除部分基分类器之后的集成拥有比原来集成全部基分类器更小的泛化误差,其论证过程如下[32]:
| 时,剔除掉第 k 个基分类器不会影响集成在第 j 个示例上 ( )和 Sgn(x)在 且 上的性质: 2Sgn x yError Sgn x Error Sgn x y 出应被剔除的基分类器 所满足的条件:1(( ) ) 0mj kj jjSgn Sum f d 11)是可以满足的,且当所有基分类器都相同时,式(2-11)可以失分类能力。理论分析可知,在执行分类任务时,从训练得到的多个基分类器,比使用所有基分类器进行集成的分类效果更好。选择性集成的
【参考文献】:
期刊论文
[1]基于差异性聚类的选择性集成人体行为识别模型[J]. 王忠民,张爽,贺炎. 计算机科学. 2018(01)
[2]协同过滤推荐算法研究进展[J]. 翁小兰,王志坚. 计算机工程与应用. 2018(01)
[3]基于用户信任和兴趣的概率矩阵分解推荐方法[J]. 彭鹏,米传民,肖琳. 计算机系统应用. 2017(09)
[4]基于混合遗传算法的任务驱动分组优化研究[J]. 李浩君,杜兆宏,邱飞岳. 计算机科学. 2017(S1)
[5]基于相异度的SVM选择性集成雾霾天气预测方法[J]. 朱旭辉,倪志伟,倪丽萍,程美英,李敬明,金飞飞. 系统科学与数学. 2017(06)
[6]基于Ext-GBDT集成的类别不平衡信用评分模型[J]. 陈启伟,王伟,马迪,毛伟. 计算机应用研究. 2018(02)
[7]基于Spark的混合推荐算法研究[J]. 胡德敏,龚燕. 计算机应用研究. 2017(12)
[8]大数据的数据清洗方法研究[J]. 谭晖,廖振松,周小翠,贺凡. 信息通信. 2017(01)
[9]基于Spark的并行遗传算法研究[J]. 余涛,刘泽燊. 计算机时代. 2017(01)
[10]基于随机贪心选择的选择性集成算法[J]. 江峰,张友强,杜军威,刘国柱,眭跃飞. 济南大学学报(自然科学版). 2017(01)
硕士论文
[1]基于Bagging的两阶段特征选择集成分类器研究[D]. 邢盼盼.郑州大学 2017
本文编号:2948523
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
Bagging算法原理图
图 2-2 boosting 算法原理图2.2.4 选择性集成学习由于集成学习能用多个基分类器得到强的分类器。因此,一种普遍的想法是:能否通过集成数目尽可能多的基分类器来获得具有更强预测分类能力的分类器。但这一做法有明显的缺点。一方面,使用过多的分类器将导致不可估计的计算和存储开销,对于有限的计算资源而言不可行;另一方面,当基分类器数目增加大一定规模之后,由于训练基分类器的数据集之间的差异性降低,会导致分类器之间的相似性越来越大,进而影响集成学习的效果。因此,南京大学周志华教授及其团队提出了选择性集成理论(SelectiveEnsemble)。该理论主要是将训练出的一组分类器,通过一定的方法选择这一组分类器中的一部分进行集成,从而获得比集成所有基分类器更好的效果。以分类任务为例,周志华教授证明了剔除部分基分类器之后的集成拥有比原来集成全部基分类器更小的泛化误差,其论证过程如下[32]:
| 时,剔除掉第 k 个基分类器不会影响集成在第 j 个示例上 ( )和 Sgn(x)在 且 上的性质: 2Sgn x yError Sgn x Error Sgn x y 出应被剔除的基分类器 所满足的条件:1(( ) ) 0mj kj jjSgn Sum f d 11)是可以满足的,且当所有基分类器都相同时,式(2-11)可以失分类能力。理论分析可知,在执行分类任务时,从训练得到的多个基分类器,比使用所有基分类器进行集成的分类效果更好。选择性集成的
【参考文献】:
期刊论文
[1]基于差异性聚类的选择性集成人体行为识别模型[J]. 王忠民,张爽,贺炎. 计算机科学. 2018(01)
[2]协同过滤推荐算法研究进展[J]. 翁小兰,王志坚. 计算机工程与应用. 2018(01)
[3]基于用户信任和兴趣的概率矩阵分解推荐方法[J]. 彭鹏,米传民,肖琳. 计算机系统应用. 2017(09)
[4]基于混合遗传算法的任务驱动分组优化研究[J]. 李浩君,杜兆宏,邱飞岳. 计算机科学. 2017(S1)
[5]基于相异度的SVM选择性集成雾霾天气预测方法[J]. 朱旭辉,倪志伟,倪丽萍,程美英,李敬明,金飞飞. 系统科学与数学. 2017(06)
[6]基于Ext-GBDT集成的类别不平衡信用评分模型[J]. 陈启伟,王伟,马迪,毛伟. 计算机应用研究. 2018(02)
[7]基于Spark的混合推荐算法研究[J]. 胡德敏,龚燕. 计算机应用研究. 2017(12)
[8]大数据的数据清洗方法研究[J]. 谭晖,廖振松,周小翠,贺凡. 信息通信. 2017(01)
[9]基于Spark的并行遗传算法研究[J]. 余涛,刘泽燊. 计算机时代. 2017(01)
[10]基于随机贪心选择的选择性集成算法[J]. 江峰,张友强,杜军威,刘国柱,眭跃飞. 济南大学学报(自然科学版). 2017(01)
硕士论文
[1]基于Bagging的两阶段特征选择集成分类器研究[D]. 邢盼盼.郑州大学 2017
本文编号:2948523
本文链接:https://www.wllwen.com/guanlilunwen/renliziyuanguanlilunwen/2948523.html