基于贝叶斯逻辑回归文本分类模型的改进及其应用
发布时间:2020-03-23 08:45
【摘要】:文本分类是数据挖掘中一个研究热点问题。自文本挖掘技术出现以来,众多研究者不断对文本挖掘技术进行改进。出现基于文本相似度方法、基于机器学习方法、基于规则方法以及基于知识库的方法等。这几类方法有各自的优点和不足。本文以文本分类方法的不足为研究出发点,重点提高语义深层挖掘和分类精确度从而实现海量文本信息处理。本文结合关联规则和贝叶斯逻辑回归模型,提出一种融合关联规则和贝叶斯方法的改进文本分类模型。关联规则模型利用文本语义规则进行分词和词频关联度度量,使得该模型具有较大的适用范围。贝叶斯逻辑回归模型具有很好的鲁棒性,能够有效避免过拟合现象。综上所述,本文将两种方法结合提出加入关联规则的贝叶斯逻辑回归模型。改进模型首先利用关联规则对文本语义信息进行深入挖掘,得到相似度参数,根据相似度参数构造高斯先验加入到贝叶斯逻辑回归模型。模型估计采用引入Polya-Gamma辅助变量的采样方法估计。并与函数近似的估计方法进行比较。作为应用,对复旦大学中文新闻语料库对提出的改进模型进行实例应用。该语料库包含2815篇文章,共10个新闻主题。数据量和主题类别较为适合进行文本分类。为验证本文模型的分类效率,分别与关联规则模型、贝叶斯逻辑回归模型、加入Polya-Gamma辅助变量的贝叶斯逻辑回归模型分类效率进行比较。实例结果表明:本文提出的改进模型能够提高文本分类效率。在垃圾邮件处理、新闻主题分类等实际领域具有一定实际应用价值。
【图文】:
类前1
图 4.4 本文改进图 4.4 横坐标表示中文新闻数据集 结果表明,不同主题类别的文本分类精较小。其中第 8 类主题分类精确度最小过比较图 4.1、图 4.2、图 4.3、图 4.4 的类精确度要高于关联规则模型分类精确精确度、加入 辅助变量确度。为便于展示,本文在最后对四种图 4.1、图 4.2、图 4.3、图 4.4 的比精确度也在提升。下一步对四种文本分
【学位授予单位】:兰州财经大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;O212.8
本文编号:2596486
【图文】:
类前1
图 4.4 本文改进图 4.4 横坐标表示中文新闻数据集 结果表明,不同主题类别的文本分类精较小。其中第 8 类主题分类精确度最小过比较图 4.1、图 4.2、图 4.3、图 4.4 的类精确度要高于关联规则模型分类精确精确度、加入 辅助变量确度。为便于展示,本文在最后对四种图 4.1、图 4.2、图 4.3、图 4.4 的比精确度也在提升。下一步对四种文本分
【学位授予单位】:兰州财经大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;O212.8
【相似文献】
相关期刊论文 前2条
1 张岩峰;陈长松;杨涛;左俐俐;丁飞;;微博用户的个性分类分析[J];计算机工程与科学;2015年02期
2 谭咏梅;王志浩;;基于多特征的中文文本蕴含识别[J];北京邮电大学学报;2015年06期
相关重要报纸文章 前1条
1 ;贝叶斯逻辑和过滤器[N];计算机世界;2006年
相关硕士学位论文 前2条
1 许腾腾;基于贝叶斯逻辑回归文本分类模型的改进及其应用[D];兰州财经大学;2018年
2 周奉兰;面向多领域的异构关系数据迁移学习界限研究[D];哈尔滨工业大学;2017年
,本文编号:2596486
本文链接:https://www.wllwen.com/kejilunwen/yysx/2596486.html