当前位置:主页 > 科技论文 > 数学论文 >

基于贝叶斯逻辑回归文本分类模型的改进及其应用

发布时间:2020-03-23 08:45
【摘要】:文本分类是数据挖掘中一个研究热点问题。自文本挖掘技术出现以来,众多研究者不断对文本挖掘技术进行改进。出现基于文本相似度方法、基于机器学习方法、基于规则方法以及基于知识库的方法等。这几类方法有各自的优点和不足。本文以文本分类方法的不足为研究出发点,重点提高语义深层挖掘和分类精确度从而实现海量文本信息处理。本文结合关联规则和贝叶斯逻辑回归模型,提出一种融合关联规则和贝叶斯方法的改进文本分类模型。关联规则模型利用文本语义规则进行分词和词频关联度度量,使得该模型具有较大的适用范围。贝叶斯逻辑回归模型具有很好的鲁棒性,能够有效避免过拟合现象。综上所述,本文将两种方法结合提出加入关联规则的贝叶斯逻辑回归模型。改进模型首先利用关联规则对文本语义信息进行深入挖掘,得到相似度参数,根据相似度参数构造高斯先验加入到贝叶斯逻辑回归模型。模型估计采用引入Polya-Gamma辅助变量的采样方法估计。并与函数近似的估计方法进行比较。作为应用,对复旦大学中文新闻语料库对提出的改进模型进行实例应用。该语料库包含2815篇文章,共10个新闻主题。数据量和主题类别较为适合进行文本分类。为验证本文模型的分类效率,分别与关联规则模型、贝叶斯逻辑回归模型、加入Polya-Gamma辅助变量的贝叶斯逻辑回归模型分类效率进行比较。实例结果表明:本文提出的改进模型能够提高文本分类效率。在垃圾邮件处理、新闻主题分类等实际领域具有一定实际应用价值。
【图文】:

基于贝叶斯逻辑回归文本分类模型的改进及其应用


类前1

比较图,中文新闻,数据集,横坐标


图 4.4 本文改进图 4.4 横坐标表示中文新闻数据集 结果表明,不同主题类别的文本分类精较小。其中第 8 类主题分类精确度最小过比较图 4.1、图 4.2、图 4.3、图 4.4 的类精确度要高于关联规则模型分类精确精确度、加入 辅助变量确度。为便于展示,本文在最后对四种图 4.1、图 4.2、图 4.3、图 4.4 的比精确度也在提升。下一步对四种文本分
【学位授予单位】:兰州财经大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;O212.8

【相似文献】

相关期刊论文 前2条

1 张岩峰;陈长松;杨涛;左俐俐;丁飞;;微博用户的个性分类分析[J];计算机工程与科学;2015年02期

2 谭咏梅;王志浩;;基于多特征的中文文本蕴含识别[J];北京邮电大学学报;2015年06期

相关重要报纸文章 前1条

1 ;贝叶斯逻辑和过滤器[N];计算机世界;2006年

相关硕士学位论文 前2条

1 许腾腾;基于贝叶斯逻辑回归文本分类模型的改进及其应用[D];兰州财经大学;2018年

2 周奉兰;面向多领域的异构关系数据迁移学习界限研究[D];哈尔滨工业大学;2017年



本文编号:2596486

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2596486.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d42a3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com