短文本信息流话题检测技术研究
发布时间:2021-05-10 07:14
为解决短文本信息稀疏性、话题开放性等问题,提高话题检测性能,论文以短文本信息流为研究对象,通过分析相关的机器学习与自然语言处理技术,提出了针对短文本信息流话题检测中几个关键步骤的算法。论文的主要工作与结论如下:针对短文本信息稀疏性的问题,论文借鉴了统计学中自助抽样法的思想,提出了基于语义距离的短文本数据增广算法;该算法通过文本相似度和词-词距离的计算,扩展文本特征。通过与其他几种文本数据增广方法的比较,验证了论文提出的数据增广算法可以提高话题分类的准确性,也证明了在不借助外部应用和外部知识的情况下,利用语料自身,依然可以实现有效的短文本数据增广,从而让分类器学习更多的特征,提高模型的泛化能力。针对短文本信息话题开放性的问题,论文提出了基于自编码器的未定义话题检测算法。该算法利用在分类网络上预训练的文本向量表示训练自编码器,利用重构损失的大小过滤未定义话题短文本。实验比较了该算法和几种one-class分类算法检测性能,验证了论文提出的算法提高了未定义话题检测的准确性,也证明了自编码器不仅能够应用于图像处理、视频监控等领域的异常检测中,也能应用于未定义话题文本的检测。针对短文本建模的问题...
【文章来源】:中国人民公安大学北京市
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
引言
1 绪论
1.1 研究背景与意义
1.2 研究现状
1.2.1 主题模型
1.2.2 表示学习
1.2.3 文本分类
1.3 研究内容与论文结构
1.3.1 主要研究内容
1.3.2 论文结构
2 基于语义距离的短文本数据增广算法
2.1 文本数据增广技术分析
2.1.1 文本数据增广
2.1.2 词-词语义距离
2.1.3 文本相似度
2.2 基于语义距离的数据增广算法
2.2.1 总体流程
2.2.2 构建语义空间
2.2.3 语义距离计算
2.2.4 接受策略
2.3 算法验证
2.3.1 实验数据与预处理
2.3.2 实验设置
2.3.3 实验结果
2.3.4 实验分析
2.4 本章小结
3 基于自编码器的短文本OOD话题检测算法
3.1 OOD检测技术分析
3.2 基于自编码器的OOD话题检测算法
3.2.1 算法流程
3.2.2 短文本向量化
3.2.3 基于自编码器的one-class分类
3.3 算法验证
3.3.1 实验数据
3.3.2 实验设置
3.3.3 比较实验
3.3.4 实验分析
3.4 本章小结
4 CapSA神经网络短文本话题分类算法
4.1 文本话题分类技术分析
4.2 CapSA文本话题分类网络模型
4.2.1 深度卷积胶囊网络
4.2.2 自注意力网络
4.2.3 话题分类网络
4.3 算法验证
4.3.1 实验设置与实验数据
4.3.2 实验结果
4.3.3 参数分析
4.4 本章小结
5 短文本信息流话题检测原型系统
5.1 系统架构
5.2 话题检测处理流程
5.3 应用测试
5.4 本章小结
结论
参考文献
在学研究成果
致谢
【参考文献】:
期刊论文
[1]基于混合卡方统计量与逻辑回归的文本情感分析[J]. 李平,戴月明,王艳. 计算机工程. 2017(12)
[2]基于WMD距离与近邻传播的新闻评论聚类[J]. 官赛萍,靳小龙,徐学可,伍大勇,贾岩涛,王元卓,刘悦. 中文信息学报. 2017(05)
[3]文本的图表示初探[J]. 周昭涛,卜东波,程学旗. 中文信息学报. 2005(02)
本文编号:3178936
【文章来源】:中国人民公安大学北京市
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
引言
1 绪论
1.1 研究背景与意义
1.2 研究现状
1.2.1 主题模型
1.2.2 表示学习
1.2.3 文本分类
1.3 研究内容与论文结构
1.3.1 主要研究内容
1.3.2 论文结构
2 基于语义距离的短文本数据增广算法
2.1 文本数据增广技术分析
2.1.1 文本数据增广
2.1.2 词-词语义距离
2.1.3 文本相似度
2.2 基于语义距离的数据增广算法
2.2.1 总体流程
2.2.2 构建语义空间
2.2.3 语义距离计算
2.2.4 接受策略
2.3 算法验证
2.3.1 实验数据与预处理
2.3.2 实验设置
2.3.3 实验结果
2.3.4 实验分析
2.4 本章小结
3 基于自编码器的短文本OOD话题检测算法
3.1 OOD检测技术分析
3.2 基于自编码器的OOD话题检测算法
3.2.1 算法流程
3.2.2 短文本向量化
3.2.3 基于自编码器的one-class分类
3.3 算法验证
3.3.1 实验数据
3.3.2 实验设置
3.3.3 比较实验
3.3.4 实验分析
3.4 本章小结
4 CapSA神经网络短文本话题分类算法
4.1 文本话题分类技术分析
4.2 CapSA文本话题分类网络模型
4.2.1 深度卷积胶囊网络
4.2.2 自注意力网络
4.2.3 话题分类网络
4.3 算法验证
4.3.1 实验设置与实验数据
4.3.2 实验结果
4.3.3 参数分析
4.4 本章小结
5 短文本信息流话题检测原型系统
5.1 系统架构
5.2 话题检测处理流程
5.3 应用测试
5.4 本章小结
结论
参考文献
在学研究成果
致谢
【参考文献】:
期刊论文
[1]基于混合卡方统计量与逻辑回归的文本情感分析[J]. 李平,戴月明,王艳. 计算机工程. 2017(12)
[2]基于WMD距离与近邻传播的新闻评论聚类[J]. 官赛萍,靳小龙,徐学可,伍大勇,贾岩涛,王元卓,刘悦. 中文信息学报. 2017(05)
[3]文本的图表示初探[J]. 周昭涛,卜东波,程学旗. 中文信息学报. 2005(02)
本文编号:3178936
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3178936.html