基于朴素贝叶斯的文本分类算法研究
发布时间:2021-08-07 06:27
互联网技术的飞速发展使得人们进入了大数据时代,互联网作为当今获取信息的主要渠道,与人类的关系也越来越密切。然后互联网中的绝大部分信息都是以文本形式存在,从而寻找一种能够有效处理文本数据进而对文本数据进行准确分类的方法成为当今具有重要研究价值的领域。朴素贝叶斯算法作为机器学习算法中的经典算法之一,以其模型简单、分类速度快、分类效率高等优点,成为了文本分类算法的重要研究内容。对于朴素贝叶斯文本分类系统而言,一方面由于传统朴素贝叶斯理论是在假设了所有特征相互独立的基础上成立的,即特征词与特征词之间是相互独立的,这一定程度上影响了分类器的性能,因此如果能够寻找一些方法来削弱或消除特征独立性假设就可以相应的提高分类器的性能。另一方面对于海量的数据,如果不进行特征提取,就会增加分类系统的负担,降低分类器的性能,所以本文分别从文本分类系统的三个方向进行处理,提出了基于IGDC特征加权的朴素贝叶斯文本分类算法(IGDCNB),基于IGDC深度加权的朴素贝叶斯文本分类算法(IGDC-DWNB),改进的自定义特征维度的快速相关性过滤(IFSC-FCBF)算法。本文的主要贡献:(1)研究并改进了朴素贝叶斯特...
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
复旦大学语料库各算法宏F1值比较
20图 2.4 复旦大学语料库各算法宏 F1 值比较从图 2.1 和 2.2 可以看出,在英文数据集上,特征维度从 500 增加到 1000 的过程中,IG权的朴素贝叶斯算法的对于文本分类的宏 F1 值都要大于 TFIDFIG 加权和 TFIDF 加权朴叶斯算法,比 TFIDFIG 加权朴素贝叶斯算法高出 1%-3%,比 TFIDF 加权朴素贝叶斯算出 2%-4%,说明了本文算法在英文数据集上的有效性。
DC-DWNB 要大于 IGDCNB 算法,IGDCNB 算法要大于 DFWNB 算法,DFWNB 算法又于 OFWNB 算法。一方面显示了本文的改进深度加权算法在原始加权算法上的有效性,方面虽然论文[46]提出的深度加权算法在英文数据集上的并没有取得较好的效果,但是文数据集上确实要优于原始的 TFIDF 普通加权算法。进一步观察可以发现在搜狗实验室集上本文的 IGDC-DWNB 算法在每个类别上都取得了最好的成绩,比 IGDC 加权朴素贝算法平均高出 2%,比 TFIDF 深度加权朴素贝叶斯算法平均高出 5%,比 TFIDF 普通加素贝叶斯算法平均高出 7%左右。而在复旦大学语料库上,本文的 IGDC-DWNB 算法虽经济和体育两个类别上没有超过 IGDCNB 算法,但整体上要比 IGDCNB 算法高出 1%,FWNB 高出 5%,比 OFWNB 高出 7%左右,也充分显示了文本的改进深度加权的朴素贝文本分类算法在中文数据集上的有效性。为了比较算法在对于整个语料库的分类性能,我们计算了所有类别对应的宏 F1 值,六个不同特征维度下进行了仿真实验,在四个数据集上六个不同维度下的类别宏 F1 值对下图 3.1-3.4 所示。
本文编号:3327265
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
复旦大学语料库各算法宏F1值比较
20图 2.4 复旦大学语料库各算法宏 F1 值比较从图 2.1 和 2.2 可以看出,在英文数据集上,特征维度从 500 增加到 1000 的过程中,IG权的朴素贝叶斯算法的对于文本分类的宏 F1 值都要大于 TFIDFIG 加权和 TFIDF 加权朴叶斯算法,比 TFIDFIG 加权朴素贝叶斯算法高出 1%-3%,比 TFIDF 加权朴素贝叶斯算出 2%-4%,说明了本文算法在英文数据集上的有效性。
DC-DWNB 要大于 IGDCNB 算法,IGDCNB 算法要大于 DFWNB 算法,DFWNB 算法又于 OFWNB 算法。一方面显示了本文的改进深度加权算法在原始加权算法上的有效性,方面虽然论文[46]提出的深度加权算法在英文数据集上的并没有取得较好的效果,但是文数据集上确实要优于原始的 TFIDF 普通加权算法。进一步观察可以发现在搜狗实验室集上本文的 IGDC-DWNB 算法在每个类别上都取得了最好的成绩,比 IGDC 加权朴素贝算法平均高出 2%,比 TFIDF 深度加权朴素贝叶斯算法平均高出 5%,比 TFIDF 普通加素贝叶斯算法平均高出 7%左右。而在复旦大学语料库上,本文的 IGDC-DWNB 算法虽经济和体育两个类别上没有超过 IGDCNB 算法,但整体上要比 IGDCNB 算法高出 1%,FWNB 高出 5%,比 OFWNB 高出 7%左右,也充分显示了文本的改进深度加权的朴素贝文本分类算法在中文数据集上的有效性。为了比较算法在对于整个语料库的分类性能,我们计算了所有类别对应的宏 F1 值,六个不同特征维度下进行了仿真实验,在四个数据集上六个不同维度下的类别宏 F1 值对下图 3.1-3.4 所示。
本文编号:3327265
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3327265.html