当前位置:主页 > 科技论文 > 软件论文 >

基于改进的朴素贝叶斯算法和KNN算法在招聘文本分类中的应用

发布时间:2022-12-07 21:18
  随着因特网时代的快速发展,大量的数据可以通过因特网来获得。同样的,求职者也可以从因特网中的招聘网站上获取招聘信息。但是在这些招聘网站上,却存在着一些乱象:例如,存在大量不相干的广告,或者存在需求不明确的招聘信息。这些情况的出现,给求职者在寻找工作的道路上平添了许多烦恼,不仅需要浪费大量的时间去浏览无效的招聘信息,还需要花费精力去分析这些招聘信息是否是正确的“招聘信息”。这些情况的出现,严重影响求职者的求职效率。为了改善这种情况,可以对招聘的文本进行分类处理。例如将招聘信息进行准确分类,就可以剔除掉那些不属于招聘信息的文本。那样,求职者只需要在属于招聘信息的文本中浏览自己感兴趣的招聘信息即可。通常对文本进行分类可采用的算法有:朴素贝叶斯算法、KNN算法、支持向量机等。本论文通过分析招聘文本信息的特点,改进了朴素贝叶斯算法和KNN算法,并且分别实现了改进后的算法,完成了对招聘文本更加准确快速分类的工作。本论文的主要研究工作为:(1)改进了朴素贝叶斯算法,提出了No-Zero Na?ve Bayes(NZ-NB)算法,并对其进行验证。通过分析招聘文本存在的特征和朴素贝叶斯算法的原理,发现朴素... 

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 引言
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 本文主要研究内容
        1.3.1 论文的主要工作
        1.3.2 论文的组织结构
    1.4 本章小结
第2章 关于文本分类相关技术的研究
    2.1 数据获取
    2.2 数据预处理
        2.2.1 中文分词
        2.2.2 去除停用词
        2.2.3 特征选择
    2.3 文本分类的种类及算法
    2.4 本章小结
第3章 基于招聘文本分类改进的朴素贝叶斯算法
    3.1 朴素贝叶斯算法的研究现状
    3.2 面对招聘文本时朴素贝叶斯算法存在的不足
    3.3 朴素贝叶斯算法的改进
    3.4 改进后朴素贝叶斯算法
    3.5 实验设置及结果
        3.5.1 实验设置
        3.5.2 实验结果分析
    3.6 结论
    3.7 本章小结
第4章 基于招聘文本分类改进的KNN算法
    4.1 KNN算法的研究现状
    4.2 面对招聘文本时KNN算法存在的不足
    4.3 KNN算法的改进
    4.4 改进后的KNN算法
    4.5 实验设置及结果
        4.5.1 实验设置
        4.5.2 实验结果及分析
    4.6 结论
    4.7 本章小结
第5章 总结与未来工作
    5.1 总结
    5.2 未来工作
参考文献
致谢
攻读学位期间的科研成果


【参考文献】:
期刊论文
[1]基于TF-IDF算法和LDA主题模型数据挖掘技术在电力客户抱怨文本中的应用[J]. 李锐,张伟彬.  自动化技术与应用. 2018(11)
[2]基于辅助集的专利主题分析领域停用词选取[J]. 俞琰,赵乃瑄.  数据分析与知识发现. 2018(11)
[3]基于爬虫的智能爬行算法研究[J]. 侯美静,崔艳鹏,胡建伟.  计算机应用与软件. 2018(11)
[4]基于改进特征选择方法的文本情感分类研究[J]. 刘洺辛,陈晶,王麒媛.  电信科学. 2018(10)
[5]分布式数据挖掘算法在热点微博分析系统中的应用[J]. 朱贺,黄克清.  数字通信世界. 2018(10)
[6]面向新闻文本的分类方法的比较研究[J]. 刘测,韩家新.  智能计算机与应用. 2018(05)
[7]朴素贝叶斯算法在垃圾邮件过滤方面的应用[J]. 徐梦龙,黄家旺.  网络安全技术与应用. 2018(07)
[8]文本分类中一种特征选择方法研究[J]. 赵婧,邵雄凯,刘建舟,王春枝.  计算机应用研究. 2019(08)
[9]基于朴素贝叶斯的农业文本分类方法研究[J]. 赵燕,李晓辉,周云成,张越.  节水灌溉. 2018(02)
[10]K最近邻算法理论与应用综述[J]. 毋雪雁,王水花,张煜东.  计算机工程与应用. 2017(21)

硕士论文
[1]数据挖掘分类算法的改进研究[D]. 陈洁.南京邮电大学 2018
[2]基于朴素贝叶斯算法的不良文本过滤技术研究及应用[D]. 赵文.长安大学 2018
[3]基于深度神经网络的文本表示与分类研究[D]. 刘腾飞.北京交通大学 2018
[4]KNN文本分类算法的研究[D]. 田琳.西安理工大学 2016
[5]基于支持向量机的文本分类研究[D]. 张华鑫.西南科技大学 2016
[6]基于文本语义及结构的中文文本相似度研究[D]. 钟杰.江西财经大学 2015
[7]企业级元搜索引擎的研究与应用[D]. 胡杨.复旦大学 2012
[8]基于词袋模型的医学影像分类的研究与实现[D]. 刘岳.东北大学 2012
[9]基于演化朴素贝叶斯的木马检测技术研究[D]. 刘永昌.华中科技大学 2012
[10]K-近邻中文文本分类方法的研究[D]. 鲁婷.合肥工业大学 2010



本文编号:3712871

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3712871.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户984a9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com