基于多模型融合的新闻文本分类研究
发布时间:2022-12-08 21:51
文本分类是通过训练一个分类模型来对未归类文本进行分类的一项技术,目前在许多应用领域取得了一定的成果,但主要集中在邮件和微博等短文本上,针对类似新闻这样的长文本仍存在分类效果不理想的现象,有待更进一步的研究。现有的分类方法虽然能在一定程度上提高分类的准确性,但是仍存在特征高维和稀疏的问题。针对上述问题,本文提出一种基于三支决策的特征选择算法,在特征选择过程中融入三支的思想对分类方法进行改进,增加样本空间中特征词的考察维度,在保证分类性能的前提下减少提取的特征词数量,改善特征高维与稀疏的问题。同时,本文设计了一种多模型融合的文本语义生成模型(TR-CNN模型),有效地提升深度学习模型在长文本领域的语义生成。本文的主要研究工作包括:1.针对传统的特征选择算法存在特征高维和稀疏的问题,本文提出一种基于三支决策的特征选择算法。首先,对传统特征选择算法进行系统分析和研究,发现传统特征选择算法在给特征词赋权重时比较单一和片面;其次,结合三支决策的思想,利用双决策函数投票的方式对特征词进行筛选,将样本空间的特征词划分到正域、边界域和负域中;然后,对边界域中的特征词做进一步地处理,确定最终的特征集合;最...
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 引言
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 基于传统机器学习的文本分类国内外研究现状
1.2.2 基于深度学习的文本分类国内外研究现状
1.2.3 多模型融合的国内外研究现状
1.2.4 三支决策国内外研究现状
1.3 论文的主要工作
1.4 论文主要组织结构
第2章 三支决策与文本分类算法
2.1 三支决策理论介绍
2.1.1 三支决策描述
2.1.2 三支决策分类表示
2.2 文本分类概述
2.2.1 文本特征选择算法
2.2.2 文本分类算法
2.3 本章小结
第3章 基于三支决策的特征选择算法
3.1 基于三支决策的特征选择算法
3.1.1 三支决策划分及决策
3.1.2 相关定义
3.1.3 算法描述
3.2 实验设计与结果分析
3.2.1 数据集与度量标准
3.2.2 实验方法
3.2.3 实验结果
3.3 本章小结
第4章 基于多模型融合的新闻文本分类算法
4.1 深度语义与文本分类
4.1.1 文本表示方法
4.1.2 深度学习与文本分类
4.2 基于多模型融合的文本语义向量表示
4.2.1 Transformer模型
4.2.2 多模型文本语义向量表示
4.3 实验设计与结果分析
4.3.1 数据集与运行环境
4.3.2 实验方法
4.3.3 实验结果
4.4 本章小结
第5章 总结与展望
5.1 主要工作与创新点
5.2 未来工作
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
【参考文献】:
期刊论文
[1]基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 李洋,董红斌. 计算机应用. 2018(11)
[2]一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 陈凯,黄英来,高文韬,赵鹏. 哈尔滨理工大学学报. 2018(04)
[3]基于三支决策的形式概念分析、粗糙集与粒计算[J]. 姚一豫,祁建军,魏玲. 西北大学学报(自然科学版). 2018(04)
[4]基于三支决策的不平衡数据过采样方法[J]. 胡峰,王蕾,周耀. 电子学报. 2018(01)
[5]基于协同过滤的三支粒推荐算法研究[J]. 叶晓庆,刘盾,梁德翠. 计算机科学. 2018(01)
[6]基于三支决策的多粒度文本情感分类模型[J]. 张越兵,苗夺谦,张志飞. 计算机科学. 2017(12)
[7]一种基于邮件头信息的三支决策邮件过滤方法[J]. 袁国鑫,于洪. 计算机科学. 2017(09)
[8]基于三支决策的多类分类模型[J]. 徐怡,魏贵莹. 计算机应用与软件. 2017(05)
[9]词向量与LDA相融合的短文本分类方法[J]. 张群,王红军,王伦文. 现代图书情报技术. 2016(12)
[10]基于改进的CHI统计方法在文本分类中的应用[J]. 黄章树,叶志龙. 计算机系统应用. 2016(11)
硕士论文
[1]基于深度学习的短文本分类及信息抽取研究[D]. 李超.郑州大学 2017
[2]基于模型融合的广告推荐算法的研究与实现[D]. 郑屹.北京理工大学 2016
[3]中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究[D]. 姚海英.吉林大学 2016
本文编号:3714197
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 引言
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 基于传统机器学习的文本分类国内外研究现状
1.2.2 基于深度学习的文本分类国内外研究现状
1.2.3 多模型融合的国内外研究现状
1.2.4 三支决策国内外研究现状
1.3 论文的主要工作
1.4 论文主要组织结构
第2章 三支决策与文本分类算法
2.1 三支决策理论介绍
2.1.1 三支决策描述
2.1.2 三支决策分类表示
2.2 文本分类概述
2.2.1 文本特征选择算法
2.2.2 文本分类算法
2.3 本章小结
第3章 基于三支决策的特征选择算法
3.1 基于三支决策的特征选择算法
3.1.1 三支决策划分及决策
3.1.2 相关定义
3.1.3 算法描述
3.2 实验设计与结果分析
3.2.1 数据集与度量标准
3.2.2 实验方法
3.2.3 实验结果
3.3 本章小结
第4章 基于多模型融合的新闻文本分类算法
4.1 深度语义与文本分类
4.1.1 文本表示方法
4.1.2 深度学习与文本分类
4.2 基于多模型融合的文本语义向量表示
4.2.1 Transformer模型
4.2.2 多模型文本语义向量表示
4.3 实验设计与结果分析
4.3.1 数据集与运行环境
4.3.2 实验方法
4.3.3 实验结果
4.4 本章小结
第5章 总结与展望
5.1 主要工作与创新点
5.2 未来工作
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
【参考文献】:
期刊论文
[1]基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 李洋,董红斌. 计算机应用. 2018(11)
[2]一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 陈凯,黄英来,高文韬,赵鹏. 哈尔滨理工大学学报. 2018(04)
[3]基于三支决策的形式概念分析、粗糙集与粒计算[J]. 姚一豫,祁建军,魏玲. 西北大学学报(自然科学版). 2018(04)
[4]基于三支决策的不平衡数据过采样方法[J]. 胡峰,王蕾,周耀. 电子学报. 2018(01)
[5]基于协同过滤的三支粒推荐算法研究[J]. 叶晓庆,刘盾,梁德翠. 计算机科学. 2018(01)
[6]基于三支决策的多粒度文本情感分类模型[J]. 张越兵,苗夺谦,张志飞. 计算机科学. 2017(12)
[7]一种基于邮件头信息的三支决策邮件过滤方法[J]. 袁国鑫,于洪. 计算机科学. 2017(09)
[8]基于三支决策的多类分类模型[J]. 徐怡,魏贵莹. 计算机应用与软件. 2017(05)
[9]词向量与LDA相融合的短文本分类方法[J]. 张群,王红军,王伦文. 现代图书情报技术. 2016(12)
[10]基于改进的CHI统计方法在文本分类中的应用[J]. 黄章树,叶志龙. 计算机系统应用. 2016(11)
硕士论文
[1]基于深度学习的短文本分类及信息抽取研究[D]. 李超.郑州大学 2017
[2]基于模型融合的广告推荐算法的研究与实现[D]. 郑屹.北京理工大学 2016
[3]中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究[D]. 姚海英.吉林大学 2016
本文编号:3714197
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3714197.html