基于深度学习的突发事件新闻文本分类研究
发布时间:2024-01-21 08:20
中国互联网信息中心在第44次《中国互联网络发展状况统计报告》中提到截止2019年6月,中国网民人数超过8.5亿,其中网络新闻用户占总网民数的80.3%[1]。互联网络因其无地域限制、传播速度快等特点,一旦发生突发事件,其便能通过网络在全国范围内传播开。如果突发事件带有负面情绪,被某些恶势力所操纵,有可能造成社会恐慌。因此,网络重大突发事件管理工作十分重要,时刻掌握网络突发事件最新消息更是重中之重。网络舆情监控涵盖多个方面,比如舆情识别、舆情分类、舆情预测等方面,从系统的角度监管网络舆情均具有重要的科研价值和社会价值。舆情分类主要涉及特征表达和文本分类技术,特征表达技术中机器学习算法(如卡方检验、信息交互等)仍然是研究主流,但均忽略了词序信息和文本结构信息。文本分类技术又主要分为两种:基于传统机器学习的方法和基于深度学习的方法。传统机器学习依赖较大的样本容量,样本容量较小时难以达到既定模型精度,样本容量过大则容易造成资源浪费。为提取文本中词序信息,学者提出词嵌入方法,从而使文本特征信息提取技术更完善。基于传统机器学习方法的分类模型因其自身特点,容易达到模型瓶颈,难以...
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状及研究评述
1.2.1 文本特征提取研究
1.2.2 新闻文本分类算法研究
1.2.3 研究评述
1.3 研究内容与技术路线
1.3.1 研究内容
1.3.2 技术路线
第2章 相关理论与技术介绍
2.1 特征选择
2.1.1 卡方检验
2.1.2 TF-IDF
2.1.3 信息增益(IG)
2.2 常用的机器学习方法
2.2.1 支持向量机
2.2.2 随机森林
2.2.3 朴素贝叶斯算法
2.3 深度学习在文本分类中的应用
2.3.1 Word2vec模型
2.3.2 MLP感知机
2.3.3 卷积神经网络
2.3.4 长短时记忆网络
2.3.5 注意力机制
2.4 本章小结
第3章 基于朴素贝叶斯的突发事件新闻文本一级分类模型
3.1 基于词频的关键词聚类分析
3.2 突发事件新闻文本一级分类流程
3.3 突发事件新闻文本一级分类模型特征表示
3.3.1 突发事件新闻文本特征筛选
3.3.2 突发事件新闻文本特征表达
3.4 基于朴素贝叶斯的一级分类模型
3.5 本章小结
第4章 基于深度学习的突发事件新闻文本二级分类模型
4.1 突发事件新闻文本二级分类流程
4.2 突发事件新闻文本二级分类模型特征表示
4.2.1 离散度向量特征表示
4.2.2 词向量特征表示
4.3 基于Attention的 DCLSTM-MLP组合模型
4.3.1 MLP模块
4.3.2 MCNN模块
4.3.3 LSTM模块
4.3.4 Attention机制
4.4 本章小结
第5章 实验与分析
5.1 实验设计
5.1.1 实验环境
5.1.2 实验数据集
5.1.3 评价指标
5.2 突发事件新闻文本一级模型分析
5.3 突发事件新闻文本二级输入向量分析——以事故灾难新闻文本为例
5.3.1 离散度向量分析
5.3.2 文本长度分析
5.3.3 词向量维度分析
5.4 突发事件新闻文本二级模型分析——以事故灾难新闻文本为例
5.4.1 MLP模型参数调整
5.4.2 Text-CNN模型参数调整
5.4.3 Text-RNN模型调参
5.4.4 分类模型对比实验
5.5 结果分析
5.6 本章小结
第6章 总结与展望
6.1 本文总结
6.2 未来展望
致谢
参考文献
攻读硕士期间获得与学位论文相关的科研成果
攻读硕士学位期间参与的科研项目
本文编号:3881580
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状及研究评述
1.2.1 文本特征提取研究
1.2.2 新闻文本分类算法研究
1.2.3 研究评述
1.3 研究内容与技术路线
1.3.1 研究内容
1.3.2 技术路线
第2章 相关理论与技术介绍
2.1 特征选择
2.1.1 卡方检验
2.1.2 TF-IDF
2.1.3 信息增益(IG)
2.2 常用的机器学习方法
2.2.1 支持向量机
2.2.2 随机森林
2.2.3 朴素贝叶斯算法
2.3 深度学习在文本分类中的应用
2.3.1 Word2vec模型
2.3.2 MLP感知机
2.3.3 卷积神经网络
2.3.4 长短时记忆网络
2.3.5 注意力机制
2.4 本章小结
第3章 基于朴素贝叶斯的突发事件新闻文本一级分类模型
3.1 基于词频的关键词聚类分析
3.2 突发事件新闻文本一级分类流程
3.3 突发事件新闻文本一级分类模型特征表示
3.3.1 突发事件新闻文本特征筛选
3.3.2 突发事件新闻文本特征表达
3.4 基于朴素贝叶斯的一级分类模型
3.5 本章小结
第4章 基于深度学习的突发事件新闻文本二级分类模型
4.1 突发事件新闻文本二级分类流程
4.2 突发事件新闻文本二级分类模型特征表示
4.2.1 离散度向量特征表示
4.2.2 词向量特征表示
4.3 基于Attention的 DCLSTM-MLP组合模型
4.3.1 MLP模块
4.3.2 MCNN模块
4.3.3 LSTM模块
4.3.4 Attention机制
4.4 本章小结
第5章 实验与分析
5.1 实验设计
5.1.1 实验环境
5.1.2 实验数据集
5.1.3 评价指标
5.2 突发事件新闻文本一级模型分析
5.3 突发事件新闻文本二级输入向量分析——以事故灾难新闻文本为例
5.3.1 离散度向量分析
5.3.2 文本长度分析
5.3.3 词向量维度分析
5.4 突发事件新闻文本二级模型分析——以事故灾难新闻文本为例
5.4.1 MLP模型参数调整
5.4.2 Text-CNN模型参数调整
5.4.3 Text-RNN模型调参
5.4.4 分类模型对比实验
5.5 结果分析
5.6 本章小结
第6章 总结与展望
6.1 本文总结
6.2 未来展望
致谢
参考文献
攻读硕士期间获得与学位论文相关的科研成果
攻读硕士学位期间参与的科研项目
本文编号:3881580
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3881580.html