朴素贝叶斯算法的改进与应用
本文关键词:朴素贝叶斯算法的改进与应用
更多相关文章: 朴素贝叶斯 下溢 核心关键词 TFIDF 文本分类
【摘要】:朴素贝叶斯算法是分类算法中最经典、最有影响的算法之一,但仍然存在一些不足之处。针对该算法中下溢问题,对算法基本公式进行了优化改进。针对NB算法中准确率问题,结合类别核心词思想和改进后的TFIDF算法,提出了一种基于类别核心词和改进型TFIDF的朴素贝叶斯CIT-NB算法。将改进后的算法应用于新闻数据集文本分类,实验结果表明,CIT-NB算法的分类性能明显优于原始朴素贝叶斯算法和基于TFIDF的分类算法。
【作者单位】: 河南理工大学计算机科学与技术学院;河南省普通高等学校矿山信息化研究重点实验室;
【关键词】: 朴素贝叶斯 下溢 核心关键词 TFIDF 文本分类
【基金】:河南省科技攻关项目(142402210435) 河南省高等学校矿山信息化重点学科开放实验室开放基金项目(ky2012-02)
【分类号】:TP18;TP391.1
【正文快照】: 文献[i]指出分类问题是数据挖掘领域研究和应用最为广泛的问题之一^目前最常用的分类算法主要有贝叶斯算法、C4. 5决策树算法、支持向量机算法(SVM,sUpP0rt vector machine)等。文献[2]指出C4.5决策树算法受到数据集中奇异数据的影响。文献[3]指出SVM算法在训练大数据集时速
【参考文献】
中国期刊全文数据库 前2条
1 曾青华;袁家斌;张云洲;;基于Hadoop的贝叶斯过滤MapReduce模型[J];计算机工程;2013年11期
2 邸鹏;段利国;;一种新型朴素贝叶斯文本分类算法[J];数据采集与处理;2014年01期
【共引文献】
中国期刊全文数据库 前5条
1 唐勇;;基于朴素贝叶斯算法对论坛文本分类的技术实现[J];电脑知识与技术;2014年32期
2 杨阳;张文生;;基于深度学习的图像自动标注算法[J];数据采集与处理;2015年01期
3 吴斌;李冠辰;刘宇;张雷;王柏;;基于微博重复发送的垃圾用户甄别[J];数据采集与处理;2015年01期
4 孙兵率;;一种基于MapReduce的频繁项集挖掘算法[J];软件导刊;2015年04期
5 柴丹炜;邵思思;张若昕;乐光学;刘建生;;网络舆论话题分类算法研究与实证分析[J];嘉兴学院学报;2014年06期
中国硕士学位论文全文数据库 前3条
1 蒋伟;基于Hadoop的电商商品文本分类研究与实现[D];武汉理工大学;2014年
2 徐冉;基于文本挖掘的疾病辅助导诊技术研究[D];北京邮电大学;2015年
3 梁海龙;基于邻域粗糙集的属性约简和样本约减算法研究及在文本分类中的应用[D];太原理工大学;2015年
【二级参考文献】
中国期刊全文数据库 前10条
1 王美珍;李芝棠;吴汉涛;;改进的贝叶斯垃圾邮件过滤算法[J];华中科技大学学报(自然科学版);2009年08期
2 李维杰;徐勇;;简体中文垃圾邮件分类的实验设计及对比研究[J];计算机工程与应用;2007年25期
3 邓维斌;王国胤;洪智勇;;基于粗糙集的加权朴素贝叶斯邮件过滤方法[J];计算机科学;2011年02期
4 钟将;孙启干;李静;;基于归一化向量的文本分类算法[J];计算机工程;2011年08期
5 王涛;裘国永;何聚厚;;新的基于最小风险的贝叶斯邮件过滤模型[J];计算机应用研究;2008年04期
6 陈志贤;;垃圾邮件过滤技术研究综述[J];计算机应用研究;2009年05期
7 赵世奇,张宇,刘挺,陈毅恒,黄永光,李生;基于类别特征域的文本分类特征选择方法[J];中文信息学报;2005年06期
8 刘丛山;李祥宝;杨煜普;;一种基于近邻元分析的文本分类算法[J];计算机工程;2012年15期
9 吕国云;赵荣椿;张艳宁;樊养余;Sahli Hichem;;基于三音素动态贝叶斯网络模型的大词汇量连续语音识别[J];数据采集与处理;2009年01期
10 史岳鹏;朱颢东;;基于类别相关性和优化的ID3特征选择[J];数据采集与处理;2011年02期
【相似文献】
中国期刊全文数据库 前10条
1 赖英旭;杨震;;改进贝叶斯算法在未知恶意软件识别中的研究[J];北京工业大学学报;2011年05期
2 陈凯星;陈建英;;一种改进的基于朴素贝叶斯算法的垃圾短信过滤技术[J];福建电脑;2014年03期
3 李欣;;一种对贝叶斯算法的改进算法分析[J];山东省农业管理干部学院学报;2011年05期
4 皮靖;邵雄凯;肖雅夫;;基于朴素贝叶斯算法的主题爬虫的研究[J];计算机与数字工程;2012年06期
5 杨忠强;秦亮曦;;一种基于维规约的属性加权朴素贝叶斯算法[J];信息技术;2013年12期
6 丁岳伟;潘涛;;利用贝叶斯算法过滤报文内容分析系统中的垃圾信息[J];上海理工大学学报;2008年01期
7 李森;赵洁;;基于朴素贝叶斯算法的语言特征描述研究[J];农业网络信息;2012年05期
8 陈福志,史杏荣;基于改进贝叶斯算法的信息安全模型[J];计算机工程;2003年20期
9 汪明;张征;;SQL Server 2008 R2贝叶斯算法研究[J];河北软件职业技术学院学报;2011年03期
10 文桥;王卫平;;基于改进贝叶斯算法的入侵检测方法[J];计算机工程;2006年12期
中国重要会议论文全文数据库 前3条
1 顾蕊;;利用贝叶斯算法的目标探测前跟踪方法[A];第七届全国信息获取与处理学术会议论文集[C];2009年
2 许小林;唐文忠;;基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研究[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
3 彭小明;辛阳;;基于增量贝叶斯算法的主题爬虫的设计与实现[A];第九届中国通信学会学术年会论文集[C];2012年
中国硕士学位论文全文数据库 前10条
1 刘大雷;基于不确定贝叶斯算法在滑坡危险性预测的应用研究[D];江西理工大学;2015年
2 杨忠强;基于属性加权和归约的朴素贝叶斯算法研究[D];广西大学;2013年
3 Emmanuel Kayitaba 阿玛尼;[D];中南大学;2010年
4 孙源泽;朴素贝叶斯算法及其在电信客户流失分析中的应用研究[D];湖南大学;2008年
5 朱强;贝叶斯算法在智能终端信息过滤中的应用研究[D];中南大学;2013年
6 王刚刚;贝叶斯算法在人体生理状态识别中的应用[D];大连理工大学;2008年
7 曾志中;基于贝叶斯算法的垃圾邮件过滤系统的分析与实现[D];北京邮电大学;2009年
8 林士杰;ID3算法、朴素贝叶斯算法和BP神经网络算法的比较和分析研究[D];内蒙古大学;2013年
9 陈培;基于行为分析的恶意代码识别系统研究与实现[D];电子科技大学;2010年
10 刘永昌;基于演化朴素贝叶斯的木马检测技术研究[D];华中科技大学;2012年
,本文编号:823973
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/823973.html