当前位置:主页 > 科技论文 > 软件论文 >

短文本信息流话题检测技术研究

发布时间:2021-05-10 07:14
  为解决短文本信息稀疏性、话题开放性等问题,提高话题检测性能,论文以短文本信息流为研究对象,通过分析相关的机器学习与自然语言处理技术,提出了针对短文本信息流话题检测中几个关键步骤的算法。论文的主要工作与结论如下:针对短文本信息稀疏性的问题,论文借鉴了统计学中自助抽样法的思想,提出了基于语义距离的短文本数据增广算法;该算法通过文本相似度和词-词距离的计算,扩展文本特征。通过与其他几种文本数据增广方法的比较,验证了论文提出的数据增广算法可以提高话题分类的准确性,也证明了在不借助外部应用和外部知识的情况下,利用语料自身,依然可以实现有效的短文本数据增广,从而让分类器学习更多的特征,提高模型的泛化能力。针对短文本信息话题开放性的问题,论文提出了基于自编码器的未定义话题检测算法。该算法利用在分类网络上预训练的文本向量表示训练自编码器,利用重构损失的大小过滤未定义话题短文本。实验比较了该算法和几种one-class分类算法检测性能,验证了论文提出的算法提高了未定义话题检测的准确性,也证明了自编码器不仅能够应用于图像处理、视频监控等领域的异常检测中,也能应用于未定义话题文本的检测。针对短文本建模的问题... 

【文章来源】:中国人民公安大学北京市

【文章页数】:70 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
引言
1 绪论
    1.1 研究背景与意义
    1.2 研究现状
        1.2.1 主题模型
        1.2.2 表示学习
        1.2.3 文本分类
    1.3 研究内容与论文结构
        1.3.1 主要研究内容
        1.3.2 论文结构
2 基于语义距离的短文本数据增广算法
    2.1 文本数据增广技术分析
        2.1.1 文本数据增广
        2.1.2 词-词语义距离
        2.1.3 文本相似度
    2.2 基于语义距离的数据增广算法
        2.2.1 总体流程
        2.2.2 构建语义空间
        2.2.3 语义距离计算
        2.2.4 接受策略
    2.3 算法验证
        2.3.1 实验数据与预处理
        2.3.2 实验设置
        2.3.3 实验结果
        2.3.4 实验分析
    2.4 本章小结
3 基于自编码器的短文本OOD话题检测算法
    3.1 OOD检测技术分析
    3.2 基于自编码器的OOD话题检测算法
        3.2.1 算法流程
        3.2.2 短文本向量化
        3.2.3 基于自编码器的one-class分类
    3.3 算法验证
        3.3.1 实验数据
        3.3.2 实验设置
        3.3.3 比较实验
        3.3.4 实验分析
    3.4 本章小结
4 CapSA神经网络短文本话题分类算法
    4.1 文本话题分类技术分析
    4.2 CapSA文本话题分类网络模型
        4.2.1 深度卷积胶囊网络
        4.2.2 自注意力网络
        4.2.3 话题分类网络
    4.3 算法验证
        4.3.1 实验设置与实验数据
        4.3.2 实验结果
        4.3.3 参数分析
    4.4 本章小结
5 短文本信息流话题检测原型系统
    5.1 系统架构
    5.2 话题检测处理流程
    5.3 应用测试
    5.4 本章小结
结论
参考文献
在学研究成果
致谢


【参考文献】:
期刊论文
[1]基于混合卡方统计量与逻辑回归的文本情感分析[J]. 李平,戴月明,王艳.  计算机工程. 2017(12)
[2]基于WMD距离与近邻传播的新闻评论聚类[J]. 官赛萍,靳小龙,徐学可,伍大勇,贾岩涛,王元卓,刘悦.  中文信息学报. 2017(05)
[3]文本的图表示初探[J]. 周昭涛,卜东波,程学旗.  中文信息学报. 2005(02)



本文编号:3178936

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3178936.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3ec80***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com