基于改进朴素贝叶斯的新闻分类研究

发布时间:2021-07-31 05:10
  随着人工智能的高速发展和数据挖掘技术的不断更新,文本分类已经成为自然语言处理中最常用的应用场景,其在舆情分析、机器翻译和聊天机器人等领域都有广泛的应用。现阶段文本分类技术有很多,但是朴素贝叶斯分类模型(Naive Bayes Classifier,简称NBC)已经成为最常用的分类模型之一。朴素贝叶斯分类模型在众多领域中均有很好的分类性能,但该分类模型也具有一定的局限性,例如需要满足属性之间相互独立的条件假设,而该条件假设在实际应用中却经常难以满足。基于该条件假设研究者们从扩展结构、特征选择、特征加权和朴素贝叶斯模型与其他模型相结合四个方面做出了推广,并取得了较好的效果。本文在前人的研究基础上,利用主成分分析(Principal Component Analysis,简称PCA)改进了朴素贝叶斯分类模型。基于主成分分析的朴素贝叶斯分类模型,简称PCAWNBC模型。本文利用主成分分析的主成分之间是相互独立性质,有效缓解了朴素贝叶斯相互独立的条件假设;再利用主成分的方差贡献率作为属性的特征权重,消除了同一属性对不同类别具有相同值的(权重均为1)缺陷。通过上述的分析后,本... 

【文章来源】:江西财经大学江西省

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于改进朴素贝叶斯的新闻分类研究


图2.1分类模型

曲线,回归模型,数据集


2相关理论概述9图2.1分类模型2.1.2机器学习回归机器学习回归也是监督学习中重要的问题。机器学习回归主要用于建立输入集与输出集之间的关系,即是采用监督学习中的回归算法,给定自变量预测因变量的关系。回归问题是根据数据集模拟一条曲面或者曲线,使得这个面或者线能拟合数据集,再依据该面或者线对其他数据集预测。回归模型可分为模型学习和模型预测两个步骤(见图2.2)。给定训练集:1122{(,),(,),,(,)}nnTxyxyxy图2.2回归模型其中ix为样本数据,iy表示标签值,i1,2,,n。模型学习就是给定合理的回归模型函数Yf(X),使用该函数拟合数据集T,求出函数Yf(X)的各个参数。模型预测是在学习出函数的各参数后,给定新的输入值n1x,通过模型预测。回归模型可分为线性回归和非线性回归,这个分类是以参数的类型来划分的,

结构图,结构图,词语,目标词


基于改进朴素贝叶斯的新闻分类研究32其中tw表示训练的目标词语,表示tw上下k个词语的词向量之和。图3.2CBOW和Skip-gram训练结构图Skip-gram模型的核心思想是通过中间词预测上下文,该词决定上下文k个词语出现的概率值:11((,,,,)|)tktktktktPwwwww.(3.26)通过上述可以知道,CBOW模型和Skip-gram模型的核心思想正好相反,COBW模型相比Skip-gram模型的训练速度更快[57],当数据量上千万集别以上更适合使用CBOW模型的训练更加有效。在计算上述概率值时,网络输出层采用的是Softmax函数,通过构造霍夫曼二叉树使两者的目标函数优化为:log(|)ttCOBWtwwCLpwS,(3.27),0log(|)tSkipgramtjtwCkjkjLpww.(3.28)其中C表示语料库的维度,通过图3.2看到,Word2vec模型并不是通过训练直接得到各词语的词向量,而是通过神经网络的权重参数,再通过其参数来给出目标词的概率值。该权重参数是表示词与词之间的相关程度,假设两个词在文中的作用相似或者位置相似,则在wor2vec词向量中也是相似。如“张三喜欢深度学习”与“李四喜欢深度学习”两句话,通过“喜欢深度学习”这些词与可以判定

【参考文献】:
期刊论文
[1]基于卡方统计的情感文本分类[J]. 周爱武,马那那,刘慧婷.  微电子学与计算机. 2017(08)
[2]一种基于信息增益的新垃圾邮件特征选择算法[J]. 李猛,刘元宁.  吉林大学学报(理学版). 2017(02)
[3]基于改进的TF-IDF软件测试错误信息分析方法[J]. 王茹,严明,王柳舒.  计算机应用. 2016(S2)
[4]Word2vec的核心架构及其应用[J]. 熊富林,邓怡豪,唐晓晟.  南京师范大学学报(工程技术版). 2015(01)
[5]主题网络爬虫研究综述[J]. 于娟,刘强.  计算机工程与科学. 2015(02)
[6]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝.  计算机学报. 2015(02)
[7]贝叶斯机器学习前沿进展综述[J]. 朱军,胡文波.  计算机研究与发展. 2015(01)
[8]贝叶斯网络结构学习综述[J]. 李硕豪,张军.  计算机应用研究. 2015(03)
[9]基于加权补集的朴素贝叶斯文本分类算法研究[J]. 杜选.  计算机应用与软件. 2014(09)
[10]一种基于粗糙集的特征加权朴素贝叶斯分类器[J]. 王国才,张聪.  重庆理工大学学报(自然科学版). 2010(07)

硕士论文
[1]中文分词系统的设计和实现[D]. 张小欢.电子科技大学 2010
[2]基于改进的K-均值算法的朴素贝叶斯分类及应用[D]. 李艳.合肥工业大学 2007



本文编号:3312833

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3312833.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户947dc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com