基于机器学习的网络招聘薪资影响因素研究
发布时间:2024-05-11 15:23
随着我国经济结构的优化调整与信息化时代的到来,如今网络招聘越来越流行,网上的招聘信息也越来越多,而薪资情况是每个求职者最为关心的事情之一,所以对影响薪资因素的研究,能够为求职者提供相关参考,使得求职者能从海量的招聘信息中获取就业需求信息。本文利用python语言编写爬虫程序获取智联招聘中的数据分析、机器学习、数据挖掘、深度学习的岗位数据,建立薪资水平的预测模型,分析在这些岗位数据中影响薪资水平的因素。本论文主要从XGBoost模型和GBDT模型这两个方面对薪资预测模型进行了研究,主要工作内容如下:(1)采用深度优先和宽度优先的两种爬虫策略,通过多进程爬取招聘信息中的岗位数据。通过掌握XGBoost模型和GBDT模型的算法过程,为模型的研究建立理论基础。(2)本文获取的招聘数据中存在大量的结构化和非结构化的文本数据,对结构化数据采用探索性分析及可视化技术,分析各个变量与薪资之间的影响关系。对非结构化变量中的文本数据采用了文本处理技术及可视化技术,使用这两个技术对文本数据中的信息进行可视化处理以及利用可视化中的词云图提取岗位招聘数据中的技能信息。通过对结构化数据的分析及非结构化数据的技能信...
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
本文编号:3970068
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图2-1深度优先算法Figure2-1depthfirstalgorithm
第2章相关理论基础9外一个未访问过的邻接顶点。(4)若顶点b尚未被访问,则访问顶点b并标记顶点b为已访问。(5)继续查找顶点b的下一个邻接顶点c,此时c可以看作是顶点a按步奏(3)的逻辑执行。直到连通图中所有顶点全部访问过为止。如图2-1所示:图2-1深度优先算法Figure2-....
图2-2宽度优先算法Figure2-2widthfirstalgorithm
第2章相关理论基础10图2-2宽度优先算法Figure2-2widthfirstalgorithm2.1.2工作流程爬虫程序的主要原理是以一个初始的URL地址信息为起点来抓取网页,通过初始URL地址获取到网页信息后,匹配到网页所抓取的地址信息,然后又从该地址信息中提取到新的URL....
图3-1数据岗位技能要求词云图
第3章数据处理及探索性数据分析26图3-1数据岗位技能要求词云图Figure3-1cloudchartofdatapostskillrequirements由此可见,在岗位数据中主要的技能要求为Python语言,Java语言,Ruby语言,Shell语言,PHP语言,MySQL数....
图3-2薪资特征的分布情况
第3章数据处理及探索性数据分析27在机器学习中,许多的模型均需要假设一个数据集或者其参数服从正态分布所以对于数据需要进行变换,数据变换是指选择某个函数,将其作用在样本上,得到新的样本的过程,虽然是对样本做变换,但同时也改变了总体的分布,因为总体的任何一个样本可能的取值也都映射到函....
本文编号:3970068
本文链接:https://www.wllwen.com/guanlilunwen/sjfx/3970068.html