细粒度的新闻文本分类方法
发布时间:2021-05-07 18:31
近年来,互联网上充斥着越来越多的信息,各种媒体每天在网络上发布大量的新闻。在金融领域当中,由于人们对于企业信誉等更加看重,会更加关注网络当中的相关新闻。同时,大量金融新闻的广告性、总结性较强,不具有价值性,这类新闻的存在增添了人们在获取相关资讯过程中的时间成本。此外,对含有潜在价值的金融新闻进行分析往往可以迅速获得信息的升值价值,有效鉴别该类新闻可以避免专业分析人员接触大量不具有分析意义的新闻文本,从而大量节约该过程当中的人工分析成本。因此,如何从大量的新闻数据当中有效鉴别含有潜在价值的金融新闻拥有重要的研究意义。本文当中,我们通过文本分类方法鉴别含有潜在价值的金融新闻。与传统文本分类问题不同的是,待分类的文本具有较长的文本长度,且不同类别之间数据具有比较大的相似性,因而是一个细粒度的长文本分类问题。对于自然语言处理当中的文本分类任务,研究重点一般在于文本表示建模方法当中。现有的文本建模方法一般在较短文本上能够取得比较好的建模效果,对于长文本的建模尝试相对较少。本文提出,在细粒度新闻文本分类问题的长文本建模过程当中,层次化地建模长文本能够更好地获取文本特征。为此,本文基于预训练语言模型...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题来源
1.2 课题研究的背景及意义
1.3 国内外相关技术研究现状分析
1.3.1 基于传统机器学习的文本分类
1.3.2 基于深度学习的文本分类
1.3.3 基于多任务学习的文本分类
1.4 本文主要研究内容
1.5 论文的组织与结构
第2章 新闻文本分类方法简介
2.1 引言
2.2 目标类别新闻鉴别的整体流程
2.3 基于深度学习的文本分类方法
2.3.1 基于深度学习的文本分类框架
2.3.2 基于深度学习的文本分类模型
2.3.3 基于预训练语言模型的文本分类方法
2.3.4 基于深度学习的文本分类器
2.4 基于多任务学习的文本分类方法
2.4.1 多任务学习的基本概念
2.4.2 多任务学习下的两种学习模式
2.4.3 多任务学习在文本分类当中的应用
2.5 本章小结
第3章 层次化文本表示的长文本分类
3.1 引言
3.2 层次化的长文本表示方法
3.2.1 嵌入层的设计方法
3.2.2 基于BERT的句子编码方法
3.2.3 篇章编码方法
3.2.4 篇章分类方法
3.3 数据集介绍
3.3.1 细粒度新闻文本分类数据集
3.3.2 公开数据集简介
3.4 评价指标介绍
3.5 实验与结果分析
3.5.1 实验环境与配置
3.5.2 实验结果
3.5.3 实验分析
3.6 本章小结
第4章 基于多任务学习的细粒度文本分类
4.1 引言
4.2 基于多任务学习的文本分类方法
4.2.1 辅助学习任务的构建
4.2.2 多任务学习的文本分类实现方法
4.3 实验结果与分析
4.3.1 基于多任务学习的实验结果
4.3.2 加入目标任务微调之后的实验结果
4.3.3 IMDb数据集上多任务学习实验结果
4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
【参考文献】:
期刊论文
[1]基于深度学习的文本分类研究进展[J]. 刘婷婷,朱文东,刘广一. 电力信息与通信技术. 2018(03)
本文编号:3173868
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题来源
1.2 课题研究的背景及意义
1.3 国内外相关技术研究现状分析
1.3.1 基于传统机器学习的文本分类
1.3.2 基于深度学习的文本分类
1.3.3 基于多任务学习的文本分类
1.4 本文主要研究内容
1.5 论文的组织与结构
第2章 新闻文本分类方法简介
2.1 引言
2.2 目标类别新闻鉴别的整体流程
2.3 基于深度学习的文本分类方法
2.3.1 基于深度学习的文本分类框架
2.3.2 基于深度学习的文本分类模型
2.3.3 基于预训练语言模型的文本分类方法
2.3.4 基于深度学习的文本分类器
2.4 基于多任务学习的文本分类方法
2.4.1 多任务学习的基本概念
2.4.2 多任务学习下的两种学习模式
2.4.3 多任务学习在文本分类当中的应用
2.5 本章小结
第3章 层次化文本表示的长文本分类
3.1 引言
3.2 层次化的长文本表示方法
3.2.1 嵌入层的设计方法
3.2.2 基于BERT的句子编码方法
3.2.3 篇章编码方法
3.2.4 篇章分类方法
3.3 数据集介绍
3.3.1 细粒度新闻文本分类数据集
3.3.2 公开数据集简介
3.4 评价指标介绍
3.5 实验与结果分析
3.5.1 实验环境与配置
3.5.2 实验结果
3.5.3 实验分析
3.6 本章小结
第4章 基于多任务学习的细粒度文本分类
4.1 引言
4.2 基于多任务学习的文本分类方法
4.2.1 辅助学习任务的构建
4.2.2 多任务学习的文本分类实现方法
4.3 实验结果与分析
4.3.1 基于多任务学习的实验结果
4.3.2 加入目标任务微调之后的实验结果
4.3.3 IMDb数据集上多任务学习实验结果
4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
【参考文献】:
期刊论文
[1]基于深度学习的文本分类研究进展[J]. 刘婷婷,朱文东,刘广一. 电力信息与通信技术. 2018(03)
本文编号:3173868
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3173868.html
最近更新
教材专著