当前位置:主页 > 科技论文 > 软件论文 >

基于行为大数据的人岗匹配分析关键技术研究

发布时间:2021-08-08 19:49
  近年来大学生就业渠道愈加丰富,类别愈加繁多,但招聘过程仍旧没有发生本质变化,招聘成本高昂。而且高校培养和招聘需求之间存在脱节,招聘一个合格的岗位候选人,需要大量笔试和面试,导致招聘效率低下,并且招聘全程受人为主观因素影响。如何找到一种高效客观的解决方法是十分有意义的。随着校园数字化的普及,数字化校园信息系统不断积累学生各方面的在校信息,且内容形式日趋多样化,其中隐藏着许多有价值的信息和规律。深度挖掘企业岗位和受聘学生的综合素质之间的内在联系,并在此基础上构建基于学生画像和岗位需求信息的人岗匹配分析机制是非常有必要的。论文的主要贡献包括:(1)针对人岗匹配分析的需求特点,给出了学生画像模型的总体设计,包括学生画像中多维度标签的定义和量化方法。并在此基础上,提出了学生在校行为数据的收集和预处理方案。(2)针对学生画像中主观标签的评估需求,提出了评级标签的生成方法。利用改进的基于模拟退火遗传优化的模糊聚类算法(SAGA-FCM)对样本数据进行聚类从而得到评级标签的初始分类。(3)基于SAGA-FCM的聚类结果,为了实现对新样本的评估,利用改进的基于遗传优化的广义回归神经网络算法(GA-GRN... 

【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于行为大数据的人岗匹配分析关键技术研究


用户标签化示意图

流程图,画像,互联网,流程


东南大学硕士学位论文6图2-2互联网用户画像构建流程从图2-2中,可以看到用户画像的源头是数据本身,对数据的采集和预处理是进行用户标签映射的重要前提。数据预处理之后,通过算法模型得到用户的标签信息,标签信息的集合可以用于用户画像建模。用户画像模型中标签的选取需要与业务场景相结合,场景建模的复杂性决定了用户建模的复杂度,即用户画像的维度。确定用户画像的维度之后,就可以对用户画像进一步的运用。本文构建学生画像的整体流程与互联网中构建用户画像的流程相似。但是学生画像的构建过程更加复杂。首先,学生画像建模的数据源更加异构,学籍管理系统、学工系统、教务系统和就业系统等各自维护各自的数据库,数据异构化严重;再者,学生画像的业务场景主要有人岗匹配、学生自我评价和高校人才培养指导,因此,学生画像的维度更加丰富;最后,由于学生画像中存在诸多主观类型的标签,所以学生画像的标签生成算法需要进一步的研究和设计。本文的学生画像主要包含两个部分:客观部分和主观部分。客观部分主要包含学生的基本属性、学习成绩、获奖情况、技能掌握和行为记录等可直接获得或者通过简单的统计策略可以获得的数据。而主观部分则包含无法直接获得的学生事务完成力、学习能力、领导力和协作能力等标签。客观部分的标签可以直接通过查表得到,比如学生的学号,成绩,籍贯等,对缺失或者奇异的数据进行简单的清洗即可。而对于主观部分的标签,则需要通过收集学生的行为日志,然后通过统计、规约、分析等手段获得。主观部分的准确性相对差一些,本文会采用客观和主观部分相结合的方式来保证学生画像的质量。此外,在构建学生画像的过程中,还需要注意标签粒度的大小,如果粒度过于精细,则会增加建模的成本,而且也会降低学生画像?

框架图,框架图,数据,队列


东南大学硕士学位论文8将各自数据库中表导出,可以获得各系统的数据。(2)网页爬取除了数据库中结构化的数据,本文还需要一些离散的数据,比如奖学金公示信息、竞赛获奖信息等。这些数据的获得则需要利用爬虫技术。爬虫的框架如图2-3所示:图2-3爬虫框架图根据图2-3,首先选取一个url作为爬虫程序的种子输入,将其放入待抓取url队列,对待抓取url队列中的url逐个解析,url解析完成后将页面内容存入数据库中,已经解析过的url放入已抓取url队列中。此外,已抓取的url队列还需要检查分析,如果其中存在新的外链,则需要抽取出新的url加入待抓取队列。本文的数据采集除了以上两种主要方式之外,需要进行一些简单的人工收集。人工收集没有固定的方法,可以通过联系系统管理员、辅导员等获取一些脱敏的数据,如学生的简历等,以帮助本文提高学生画像的质量。2.2.2数据预处理数据采集得到的数据需要进行预处理操作,从而提升的数据质量,以达到建模的需要。(1)数据清洗数据清洗是为了剔除原始数据中重复的、错误的、无关的数据,并补充和修正数据中缺失的或者异常的值。由于高校的学生行为数据管理业务相对明确且管理规范,对于重复的和缺失严重的数据,直接剔除样本集。而对于个别缺失的数据,由于缺失部分不大,可以通过简单筛选后,人工进行补全。(2)数据集成数据集成是为了将各个系统内异构的数据源集合成一个整体。本文利用学生的学号作为主键合并到数据库中。在数据集成的过程中,需要进行简单的实体和冗余数据识别。实体识别主要是针对相同命名不同含义、不同命名相同含义或单位不一致的数据进行识别和处理。冗余数据则是由于设计不合理或者业务特殊需要而重复出现的数据或者命名不同意义相同的数据进行删除和整合。(3)数据变换

【参考文献】:
期刊论文
[1]结合模拟退火算法的遗传K-Means聚类方法[J]. 凌静,江凌云,赵迎.  计算机技术与发展. 2019(09)
[2]结合初始中心优化和特征加权的K-Means聚类算法[J]. 王宏杰,师彦文.  计算机科学. 2017(S2)
[3]面向社会化媒体用户评论行为的属性推断[J]. 刘云,孙宇清,李明珠.  计算机学报. 2017(12)
[4]混合算法求解多目标平衡旅行商问题[J]. 董学士,董文永,王豫峰.  计算机研究与发展. 2017(08)
[5]遗传算法的广义回归神经网络建模方法[J]. 孔国利,张璐璐.  计算机工程与设计. 2017(02)
[6]基于大数据分析的用户画像助力精准营销研究[J]. 张丽娟.  电信技术. 2017(01)
[7]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军.  计算机学报. 2017(06)
[8]基于标签权重评分的推荐模型及算法研究[J]. 孔欣欣,苏本昌,王宏志,高宏,李建中.  计算机学报. 2017(06)
[9]均衡模糊C均值聚类算法[J]. 文传军,汪庆淼,詹永照.  计算机科学. 2014(08)
[10]面向微博系统的实时个性化推荐[J]. 高明,金澈清,钱卫宁,王晓玲,周傲英.  计算机学报. 2014(04)

硕士论文
[1]广义回归神经网络和遗传算法研究及其在化工过程建模中的应用[D]. 郝鑫.浙江大学 2004



本文编号:3330576

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3330576.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6ebf8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com