基于贝叶斯逻辑回归文本分类模型的改进及其应用

发布时间：2020-03-23 08:45

【摘要】：文本分类是数据挖掘中一个研究热点问题。自文本挖掘技术出现以来,众多研究者不断对文本挖掘技术进行改进。出现基于文本相似度方法、基于机器学习方法、基于规则方法以及基于知识库的方法等。这几类方法有各自的优点和不足。本文以文本分类方法的不足为研究出发点,重点提高语义深层挖掘和分类精确度从而实现海量文本信息处理。本文结合关联规则和贝叶斯逻辑回归模型,提出一种融合关联规则和贝叶斯方法的改进文本分类模型。关联规则模型利用文本语义规则进行分词和词频关联度度量,使得该模型具有较大的适用范围。贝叶斯逻辑回归模型具有很好的鲁棒性,能够有效避免过拟合现象。综上所述,本文将两种方法结合提出加入关联规则的贝叶斯逻辑回归模型。改进模型首先利用关联规则对文本语义信息进行深入挖掘,得到相似度参数,根据相似度参数构造高斯先验加入到贝叶斯逻辑回归模型。模型估计采用引入Polya-Gamma辅助变量的采样方法估计。并与函数近似的估计方法进行比较。作为应用,对复旦大学中文新闻语料库对提出的改进模型进行实例应用。该语料库包含2815篇文章,共10个新闻主题。数据量和主题类别较为适合进行文本分类。为验证本文模型的分类效率,分别与关联规则模型、贝叶斯逻辑回归模型、加入Polya-Gamma辅助变量的贝叶斯逻辑回归模型分类效率进行比较。实例结果表明:本文提出的改进模型能够提高文本分类效率。在垃圾邮件处理、新闻主题分类等实际领域具有一定实际应用价值。
【图文】：

类前1

比较图,中文新闻,数据集,横坐标

图 4.4 本文改进图 4.4 横坐标表示中文新闻数据集结果表明，不同主题类别的文本分类精较小。其中第 8 类主题分类精确度最小过比较图 4.1、图 4.2、图 4.3、图 4.4 的类精确度要高于关联规则模型分类精确精确度、加入辅助变量确度。为便于展示，本文在最后对四种图 4.1、图 4.2、图 4.3、图 4.4 的比精确度也在提升。下一步对四种文本分
【学位授予单位】：兰州财经大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP391.1;O212.8

【相似文献】