当前位置:主页 > 科技论文 > 软件论文 >

一种朴素贝叶斯文本分类算法的分布并行实现

发布时间:2018-11-27 10:15
【摘要】:针对当前朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,提出一种基于Map Reduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用Map Reduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和数据处理能力。
[Abstract]:Aiming at the problems of sparse data, inaccurate classification and low efficiency in the current naive Bayesian text classification algorithm, a Dirichlet naive Bayesian text classification algorithm based on Map Reduce is proposed. The algorithm firstly adjusts the weight according to the meaning factor of the sign words and the distribution in the class, and then modifies the calculation formula. This paper introduces the Dirichlet data smoothing method in the statistical language modeling technology to reduce the influence of data sparsity on the classification performance, and uses the Map Reduce programming model to realize the parallelization of the algorithm in the Hadoop cloud computing platform. The experimental results show that the proposed algorithm can significantly improve the accuracy and recall of the traditional naive Bayesian text classification algorithm and has good scalability and data processing ability.
【作者单位】: 广州体育学院;华南师范大学计算机学院;
【基金】:广东省教育厅2015重大科研立项青年项目
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 钱颖能;胡运发;;用朴素贝叶斯分类法选股[J];计算机应用与软件;2007年06期

2 欧阳泽华;郭华平;范明;;在逐渐缩小的空间上渐进学习朴素贝叶斯参数[J];计算机应用;2012年01期

3 裴亚辉;熊盛武;;朴素贝叶斯及其扩展模型[J];网络安全技术与应用;2007年08期

4 赵彦琦;谢小西;荀宇畅;;朴素贝叶斯分类法的应用[J];电子制作;2013年07期

5 菅小艳;崔彩霞;;基于朴素贝叶斯的文本分类[J];电脑开发与应用;2013年12期

6 王实;高文;;增强型朴素贝叶斯学习[J];计算机科学;2000年04期

7 杨忠强;秦亮曦;;一种基于属性加权的朴素贝叶斯改进算法[J];广西大学学报(自然科学版);2013年05期

8 张彩丽;杨帆;张玉杰;;柴油机供油系统状态的朴素贝叶斯诊断方法研究[J];计算机测量与控制;2008年08期

9 白耀辉;陈明;王举群;;利用朴素贝叶斯方法实现异常检测[J];计算机工程与应用;2005年34期

10 王双成;冷翠平;侯彩虹;;操作风险等级预测的朴素贝叶斯方法研究[J];计算机工程与应用;2008年12期

相关会议论文 前2条

1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

2 李海军;王钲旋;王利民;苑森淼;;基于主成分分析提升朴素贝叶斯[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年

相关硕士学位论文 前10条

1 李Pr;基于朴素贝叶斯的文本分类研究及其在微博分类中的应用[D];北京理工大学;2015年

2 李冬梅;朴素贝叶斯与决策树混合分类方法的研究[D];大连海事大学;2016年

3 胡为成;基于遗传算法的朴素贝叶斯分类研究[D];合肥工业大学;2006年

4 刘勇华;基于朴素贝叶斯的中文段落情感分析[D];太原理工大学;2015年

5 周龙;基于朴素贝叶斯的分类方法研究[D];安徽大学;2006年

6 王翔;基于朴素贝叶斯和One-R的入侵检测问题研究[D];合肥工业大学;2008年

7 周远阳;基于朴素贝叶斯方法的新闻分类系统的实现[D];暨南大学;2012年

8 李忠波;基于改进朴素贝叶斯的蛋白质提纯方法选择[D];大连理工大学;2014年

9 孙秀亮;基于属性加权的选择性朴素贝叶斯分类研究[D];哈尔滨工程大学;2013年

10 华林森;中文文本情感分类研究[D];重庆大学;2014年



本文编号:2360381

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2360381.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c6767***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com