当前位置:主页 > 管理论文 > 信息管理论文 >

基于文本挖掘的网络招聘信息分析

发布时间:2020-12-30 04:17
  随着互联网技术的发展,人才招聘方式发生了非常大的变化,逐步从以前那些招聘方法过渡到现在的网络招聘,网络招聘平台的信息最直观地反映了当今社会对人才的需求,尤其是近年来风生水起的大数据行业。为了研究当今招聘市场的详情和大数据行业的需求情况,本文以山东省为例,对普通岗位和大数据岗位的招聘数据进行了相关研究。本文通过爬取前程无忧和智联招聘两个综合性的招聘网站的数据,主要对山东省普通岗位和大数据岗位进行了研究。针对普通岗位,主要是采用描述性统计分析的方法,从工作地点、工作经验要求、薪资水平、学历水平、公司性质、公司规模等方面对普通岗位的招聘情况进行了分析;对大数据岗位,一方面利用描述性分析,对上述指标进行了统计分析,另一方面,针对岗位要求和岗位职责两个指标进行详细分析,利用TF-IDF算法、构建LDA主题模型和职位画像,对大数据各类岗位对人才的要求进行了研究。通过分析,可以得到不管是普通岗位也好,还是大数据类岗位也好,在山东省内部大多都是分布在济南和青岛两座城市,普通岗位对经验、学历的要求要低于大数据类岗位,相应的薪资水平也较低,而公司性质和公司规模都是以小型民营企业为主。通过对大数据类岗位的分... 

【文章来源】:山东师范大学山东省

【文章页数】:48 页

【学位级别】:硕士

【部分图文】:

基于文本挖掘的网络招聘信息分析


Scrapy框架结构图

模型图,主题分布,主题词,矩阵分解


LDA 主题模型是一个三层贝叶斯概率生成模型,是一种典型的无监督、基于统计学词袋模型,也就是说,它认为一篇文章是由一组词构成的一个集合,词与词之间没有顺和先后关系[10]。主题模型可以用来提取文本集合的主题和主题之间的关联关系。LDA主要思想是:每篇文章都有各自的主题分布,其中,主题和它的主题词都服从多项分布,自分布的参数也都服从狄利克雷分布。所以,有以下概率公式: ( | ) = ∑ ∈ ( | ) ( | ) ( 2 - 4 )式 2-4 的概率公式表示的是词 在文档 中出现的概率。这个概率等于特征值的概和主题词的概率之积,即词 在主题 中出现的概率与主题 在文档 中出现的概率乘积。LDA 模型的思想可以用矩阵的形式表示出来,把整个文档看作是文档词条矩阵,把个矩阵分成文档-主题矩阵和主题-词条矩阵,如图 2-2 表示了三者之间的关系,和式 2-4含义相同。

分布图,工作地点,分布图,薪资


③将公司规模统一为 100 人以下、100-499 人、500-999 人、1000-9999 人、10000 人以上五个标准;④将学历统一为高中及以下、大专、本科、硕士、博士、不限六个学历水平;⑤将工作经验统一为无经验、1-3 年、3-5 年、5-10 年、10 年以上及经验不限六个水平;⑥将薪资统一划分到月薪 0-5k、5-10k、10-15k、15-20k、20-25k、25-30k、30-100七个水平,由于爬取的数据薪资水平上下限都不统一,因此取上下限的平均值,然后按照平均值隶属以上哪个水平就将该条岗位信息的薪资划分到哪个区间,以此做到统一薪资水平。3.2 山东省普通岗位描述性统计分析(1)岗位地点分布

【参考文献】:
期刊论文
[1]基于聚焦网络爬虫技术的人才招聘数据采集[J]. 刘贵平,刘娜,段红义.  电脑编程技巧与维护. 2018(05)
[2]国内招聘类网站的数据类岗位人才需求特征挖掘[J]. 张俊峰,魏瑞斌.  情报杂志. 2018(06)
[3]基于大数据技术的社交网络招聘研究[J]. 邵丹.  中国战略新兴产业. 2018(16)
[4]大数据行业人才培养探究[J]. 谭林海.  中国信息化. 2017(10)
[5]基于Scrapy的深层网络爬虫研究[J]. 刘宇,郑成焕.  软件. 2017(07)
[6]基于国内市场需求的大数据管理人才知识结构分析[J]. 周晓燕,尹亚丽.  情报科学. 2017(01)
[7]基于词频统计的文本关键词提取方法[J]. 罗燕,赵书良,李晓超,韩玉辉,丁亚飞.  计算机应用. 2016(03)
[8]大数据背景下的应用统计专业硕士人才培养模式研究[J]. 阮敬,陈涛.  统计与管理. 2015(08)
[9]基于数据挖掘的Web招聘信息相关性分析[J]. 钟晓旭,胡学钢.  安徽建筑工业学院学报(自然科学版). 2010(04)
[10]我国网络招聘研究综述[J]. 张萌,衣冯源.  现代经济信息. 2009(20)

硕士论文
[1]基于爬虫和LDA的新闻话题挖掘[D]. 曹牧原.河北大学 2018
[2]基于TF-IDF推荐算法的多样性研究[D]. 熊魏.长江大学 2018
[3]基于网络爬虫的信息采集技术研究[D]. 王子豪.西北师范大学 2018
[4]基于LDA主题模型的文本聚类研究[D]. 王惠.兰州大学 2018
[5]网络招聘信息的分析与挖掘[D]. 赵丹.贵州财经大学 2017
[6]基于非结构化招聘信息的采集与清洗系统[D]. 张瑀.湖南师范大学 2017
[7]基于Web文本挖掘的电子商务专业人才市场需求研究[D]. 王萍.重庆工商大学 2016
[8]基于概率主题模型的中草药文献服务系统的研究与实现[D]. 凌超.浙江大学 2014
[9]基于VSM扩展算法和经典聚类算法的Web挖掘研究[D]. 王安.首都经济贸易大学 2013



本文编号:2946971

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/sjfx/2946971.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8a57d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com