基于朴素贝叶斯方法的文本分类算法研究

发布时间:2021-07-08 06:16
  近些年来,信息技术发展迅猛,互联网用户步入了一个崭新的时代,海量数据也为用户带来了前所未有的体验。虽然用户可以检索更多的信息,满足更广泛的需求,但科技的进步往往伴随着一些新问题的衍生,大量的原始数据是杂乱无章的,这为用户带来了很大的不便,所以文本分类技术应运而生。通过文本分类技术可以根据文本中包含的特征词将文本自动分类,在信息检索、自然语言处理等领域得到了广泛的应用。目前,已经有很多方法应用于文本分类,比如朴素贝叶斯、KNN、决策树、SVM等等,但如何选择高效精准的方法使得文本分类达到更好的效果是当下亟待解决的问题。本文主要围绕朴素贝叶斯算法进行研究,并提出了两种改进朴素贝叶斯算法:一种是基于泊松分布的加权朴素贝叶斯文本分类算法,另一种是基于特征深度加权的朴素贝叶斯树文本分类算法。本文进行的主要工作如下:(1)介绍了文本分类的研究背景和发展现状,阐述了文本分类的定义,详细介绍了文本分类的具体流程以及几种经典分类器的算法原理和优缺点。(2)提出了一种基于泊松分布的加权朴素贝叶斯文本分类算法,改进朴素贝叶斯算法在文本分类中精度不足的问题。首先将泊松随机变量引入朴素贝叶斯的推导过程,然后通过... 

【文章来源】:湘潭大学湖南省

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

基于朴素贝叶斯方法的文本分类算法研究


根据文本属性进行分类

中英文,文本,单词


湘潭大学硕士学位论文8据集学习得到分类模型,将新数据放入模型实现分类。(5)性能评价:需要对构建的分类器进行性能评估,以判定分类结果的好坏,现阶段性能评估指标有准确率、召回率、F1值、ROC曲线等,如果通过指标显示分类性能较差,则对分类器进行改善直至能保证优良的分类效果。2.2文本预处理文本语料的完备程度、数据格式等都会影响到分类性能,为了消除这些影响,,规范语料库进行文本预处理是很有必要的,文本预处理主要包括文本分词、词干提娶去除停用词等步骤。(1)文本分词:将文本内容分为以词为最小单位的序列,该过程成为文本分词。英文文本单词之间本身通过空格分开,因此可直接完成分词处理,中文文本则需要通过特定的算法将词语隔开。(2)词干提取:简单来说就是词形还原,主要针对英文文本,英文单词中有很多情形下带有前缀或者后缀,虽然它们和词根之间的含义基本相同,但并非单词本身的形式,这会使得存在大量重复的单词,词语冗余度较高,增加了后续分类的计算成本。比如:“developed”、“developing”、“development”,这3个单词的词根都为“develop”,且表达的意思类似,所以需要将它们进行词干提取,当这3个单词出现时,计算机程序认为都是“develop”,这在很大程度上简化了后续分类过程对特征词的处理。(3)去除停用词:停用词是指反复在文本中出现但却没有实际意义的词,部分停用词如图2.2所示,通常为介词、副词、冠词等功能词,这些词对文本分类没有起到任何作用,反而增加了数据存储空间,为正确分类带来了干扰,因此去除停用词也是特征工程的重要一环。图2.2中英文停用词

文本,中文,特征选择


湘潭大学硕士学位论文29图3.2可以看出,词与词之间已通过间隔区分开;另外,将停用词和标点符号专门新建一个文档进行存放,英文停用词放在ENstopwords891.txt文档中,中文停用词放在CNstopwords.txt文档中,在图2.2中已展示部分停用词,本文通过这两个文档中的停用词进行筛选过滤。图3.1中文文本分词前图3.2中文文本分词后步骤2.文本向量化:将文本转化为词向量的形式,文本id表示为一个空间向量,12||{,,...,}(1,2,...,)iVdwwwin,kw为特征词(k1,2,...,|V|),|V|为特征词总个数;通过Python中sklearn.feature_extraction.text模块下的TfidfVectorizer()函数实现,在TfidfVectorizer()函数中设置stop_words,将步骤1中提取的停用词列表作为stop_words参数值,表示将文本转化为去除停用词之后的向量。20-newsgroups数据集中,每篇文本转化为一个107275维的向量,英文文本训练数据输出size大小为7716×107275的矩阵,7716为英文数据集训练样本数量;搜狗新闻数据集中,每篇文本转化为一个15589维的向量,中文文本训练数据输出size大小14328×15589为的矩阵,14328为中文数据集训练样本数量。步骤3.特征选择:文本中包含海量的特征词,导致文本向量维度过大,也为运算带来了不便,因此做特征选择处理。Python中有较多可直接实现特征选择的方法封装在sklearn.feature_selection模块下,有VarianceThreshold()、SelectKBest()、SelectFromModel()等,本文是选用的SelectFromModel()函数进行特征选择,参数设置为ExtraTreesClassifiter(),表示基于树模型进行特征选择,当然也可以选择其余的方法进行特征选择,本文仅在SelectFromModel(ExtraTreesClassifiter())下

【参考文献】:
期刊论文
[1]中文文本分类方法综述[J]. 于游,付钰,吴晓平.  网络与信息安全学报. 2019(05)
[2]最大熵判别主题模型的高效学习算法[J]. 陈键飞,朱军.  模式识别与人工智能. 2019(08)
[3]基于卷积神经网络的词义消歧[J]. 张春祥,赵凌云,高雪瑶.  北京邮电大学学报. 2019(03)
[4]基于词向量的文本分类研究[J]. 马力,李沙沙.  计算机与数字工程. 2019(02)
[5]改进朴素贝叶斯算法在文本分类中的应用[J]. 黄勇,罗文辉,张瑞舒.  科技创新与应用. 2019(05)
[6]基于词向量的向量空间模型的改进[J]. 殷功俊.  现代计算机(专业版). 2018(36)
[7]一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 陈凯,黄英来,高文韬,赵鹏.  哈尔滨理工大学学报. 2018(04)
[8]基于参考点的改进k近邻分类算法[J]. 梁聪,夏书银,陈子忠.  计算机工程. 2019(02)
[9]基于数据挖掘的文本分类算法[J]. 李志坚.  长春师范大学学报. 2017(12)
[10]针对朴素贝叶斯文本分类方法的改进[J]. 漆原,乔宇.  电子科学技术. 2017(05)

博士论文
[1]文本分类中特征加权算法和文本表示策略研究[D]. 贾隆嘉.东北师范大学 2016
[2]文本分类中若干问题研究[D]. 刘赫.吉林大学 2009

硕士论文
[1]多项式朴素贝叶斯文本分类算法改进研究[D]. 张伦干.中国地质大学 2018



本文编号:3271027

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3271027.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c2a2e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com