半监督学习在大学生就业数据中的应用研究
本文关键词:半监督学习在大学生就业数据中的应用研究
更多相关文章: 就业分析 数据挖掘 半监督学习 非对称稀疏图 贝叶斯分类
【摘要】:随着高等院校的发展和扩招,学生数量剧增,学生的就业成为一个日益严峻的问题。同时,各高校的学生信息化系统积累了大量的学生数据,面对这些数据,我们使用查询、修改、添加和删除等操作是不够的,借助数据挖掘技术对这些数据进行学习,发挥它们潜在的应用价值,为高校大学生就业服务,是近年来教育领域研究的热点之一。使用数据挖掘技术对大学生就业数据行进分析,研究较多的算法有决策树、聚类分析和关联规则。决策树算法的核心问题根据决策属性对数据集进行分类,决策属性的选择和计算方法决定了它很难适用于大规模的训练集,虽然提出了ID3、ID4和C4.5等改进算法,但是并未考虑属性间的关联度和错分积累问题,不能从根本提高分类的准确率,同时决策树算法也是一种监督学习算法,而大学生就业数据含有缺失类标记数据,算法健壮性不能得到保证。聚类算法对大学生就业数据进行分析,是在无类别标记指导的前提下进行的无监督学习,常用的算法有K-means算法等,这类基于划分算法的聚类结果强烈依赖初始化参数的选择,算法执行后把就业单位性质相近的学生聚成一类,对其他未就业的学生并未形成指导性意见。关联规则算法可以挖掘出影响大学生就业的相关因素,根据这些因素可以为大学生的培养提供参考性建议,使用较多的是Apropri算法和其改进算法,但是算法执行过程中生成数量巨大的备选项集、过多的I/O操作和较多的循环影响执行速度,算法在执行效率上很低。为了解决以上数据挖掘算法在就业数据分析中存在的问题,充分利用就业数据中有标记数据的引导作用,发挥无标记数据的辅助作用,训练出具有泛化性的分类器,对大学生就业数据进行分类和预测,使之成为还没有就业学生推荐就业的依据。本文所做工作如下:(1)分析国内外高校大学毕业生就业形势和影响就业的相关因素,对重庆市某高校教务系统的学生成绩信息表、学生管理系统的学生基本信息表和高校就业管理系统的学生就业数据表进行合并处理,得到毕业生的综合数据。(2)在图算法基础上,讨论基于图的半监督学习算法,把核函数引进到半监督学习框架中,发挥核函数的优势,解决低维空间线性不可分的问题,提出了基于核的图上半监督学习算法。最后使用毕业生综合数据集与基于全局和局部的半监督学习算法进行对比实验,实验结果证明了提出算法的有效性和可行性。(3)研究了稀疏图的构造方法,讨论了稀疏图有效反映数据之间几何关系和空间构造的特性,并证明了用该方法求解属性权值的正确性和合理性,提出非对称稀疏图的半监督学习算法。最后通过线性规划求解最优的稀疏表达,并与对称图的拉普拉斯算法进行对比验证,实验结果证实了提出算法的可行性。(4)在朴素贝叶斯分类算法的基础上,弱化特征属性间彼此独立的条件假设,使其决策属性具有更合理的权值,对分类的影响更准确,提出了改进属性加权贝叶斯多分类算法。最后在毕业生数据集上与朴素贝叶斯算法进行对比实验,实验结果证实了改进算法的有效性。(5)提出大学生就业问题的四点建议,并指出下一步的研究目标和工作方向。
【关键词】:就业分析 数据挖掘 半监督学习 非对称稀疏图 贝叶斯分类
【学位授予单位】:重庆师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:G647.38
【目录】:
- 摘要5-7
- ABSTRACT7-11
- 1 绪论11-18
- 1.1 背景和实际意义11-12
- 1.1.1 背景11-12
- 1.1.2 实际意义12
- 1.2 研究现状12-15
- 1.2.1 国内外高校就业信息现状12-14
- 1.2.2 数据挖掘国内外研究现状14-15
- 1.3 研究内容15-17
- 1.3.1 研究内容16
- 1.3.2 论文结构16-17
- 1.4 本章小结17-18
- 2 相关技术简介18-26
- 2.1 半监督学习18-22
- 2.1.1 半监督学习的假设20-21
- 2.1.2 半监督学习经典算法简介21-22
- 2.2 图的构造方法22-24
- 2.3 基于图的半监督学习算法24-25
- 2.4 本章小结25-26
- 3 基于图的半监督学习算法26-32
- 3.1 基于核的图上半监督学习26-28
- 3.1.1 算法的执行流程27-28
- 3.2 基于稀疏图的半监督学习28-31
- 3.2.1 算法的描述和推导30-31
- 3.2.2 算法的执行过程31
- 3.3 本章小结31-32
- 4 基于改进贝叶斯半监督分类模型32-36
- 4.1 贝叶斯算法32
- 4.2 朴素贝叶斯分类32-33
- 4.3 改进属性加权贝叶斯分类算法33-34
- 4.4 算法执行过程34-35
- 4.5 本章小结35-36
- 5 就业数据分析和实验36-47
- 5.1 大学生就业数据36-39
- 5.1.1 数据预处理37
- 5.1.2 数据泛化、数值化37-39
- 5.2 基于核的图上半监督学习实验39-41
- 5.3 基于稀疏图的半监督学习实验41-43
- 5.4 改进属性加权贝叶斯半监督分类实验43-46
- 5.5 大学生就业问题建议46
- 5.6 本章小结46-47
- 6 总结和展望47-49
- 6.1 总结47
- 6.2 展望47-49
- 参考文献49-53
- 附录A53-54
- 致谢#@@
【相似文献】
中国期刊全文数据库 前8条
1 王成家,裴春民;高校毕业生就业数据公布与就业质量的关系研究[J];思想政治教育研究;2005年02期
2 世笑瑾;范以锦;;从就业数据看社会对泛媒体人才的需求[J];青年记者;2013年34期
3 王晓东;;美国经济难言衰退——美国就业数据简评[J];证券导刊;2008年02期
4 徐静波;杨光坤;;辅导员如何更好地开展就业工作[J];北京教育(德育);2012年11期
5 ;就业数据表明美国经济强劲复苏[J];财经界;2010年07期
6 邱瑾;;决策树在高职学生就业数据分析中的应用研究[J];柳州职业技术学院学报;2012年02期
7 本刊编辑部;;近期资讯[J];青海金融;2011年12期
8 朱建强;;以“我”为主[J];考试(高考族);2009年01期
中国重要报纸全文数据库 前10条
1 实习记者 潘颖;就业数据进一步降低美国加息预期[N];北京现代商报;2006年
2 证券时报记者 吴家明;美就业数据喜讯令美元飙升[N];证券时报;2009年
3 吴家明;美5月私营就业数据欠佳[N];证券时报;2011年
4 记者 王丽娜;美元对日元汇价升至5周新高[N];上海证券报;2006年
5 记者 刘洪 刘丽娜;美就业数据喜人奥巴马乘势鼓劲[N];新华每日电讯;2010年
6 樊宇;美国7月份就业数据喜忧参半[N];中华工商时报;2012年
7 记者 莫莉;法就业数据添忧 欧洲经济不胜“愁”[N];金融时报;2011年
8 记者 廖政军;美国就业数据仍显疲弱[N];人民日报;2013年
9 张涵;美就业数据 好过预期[N];21世纪经济报道;2012年
10 樊宇 蒋旭峰;美国就业数据逊色引发经济减速担忧[N];中国改革报;2013年
中国硕士学位论文全文数据库 前1条
1 刘建峰;半监督学习在大学生就业数据中的应用研究[D];重庆师范大学;2015年
,本文编号:857976
本文链接:https://www.wllwen.com/jiaoyulunwen/shifanjiaoyulunwen/857976.html