基于SentenceLDA主题模型的短文本分类研究

发布时间:2022-07-02 13:27
  短文本已经成为互联网个体在个人独立网络平台上发表意见和分享信息的重要形式。大量的日常信息,如微博、新闻源、网络搜索、论坛信息,已经远远超出了人工所能处理和理解的能力范围。短文本内容简单凝练,含义高度归纳,具有极为丰富的信息资源。对海量的短文本进行理解、处理和分类,可以发掘出用户感兴趣的相关信息。短文本分类是文本数据挖掘的重要手段之一,也是信息过滤、信息检索、用户推荐等领域的一项自然语言处理基础任务。如何快速准确地实现较大规模自动化短文本分类,已经是当前自然语言处理领域内的热点和难点之一。短文本的特点包括:本身文本长度极短、内容信息稀疏,上下文共现信息不足;上下文依赖性强;即时性强且数据规模巨大。目前,传统的基于长文本的自动化文本分类技术已经比较成熟并且应用颇广,但由于短文本的上述特点,导致较为成熟的长文本分类技术直接应用在短文本分类上的效果并不是很出色。针对短文本长度极短、特征稀疏的特点,本文从扩展原始短文本特征入手,在训练好的主题模型上训练短文本,对短文本进行特征扩展;针对传统离散化文本表示的不足,利用Word2Vec工具训练词向量,对短文本进行分布式表示,将加权的词向量短文本表示与... 

【文章页数】:61 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文的主要内容
    1.4 论文的组织结构
2 文本分类相关理论
    2.1 文本表示模型
        2.1.1 文本离散表示
        2.1.2 文本分散式表示
    2.2 特征选择方法
        2.2.1 文档频率特征选择
        2.2.2 信息增益方法
        2.2.3 卡方统计量法
        2.2.4 互信息法
    2.3 机器学习文本分类算法
        2.3.1 朴素贝叶斯
        2.3.2 支持向量机
    2.4 本章小结
3 基于S-LDA的短文本特征扩展
    3.1 LDA主题模型
    3.2 S-LDA主题模型
    3.3 S-LDA主题模型迭代
        3.3.1 文本生成过程
        3.3.2 吉布斯采样
        3.3.3 S-LDA模型评估
    3.4 基于S-LDA的短文本特征扩展
        3.4.1 S-LDA的主题-词分布
        3.4.2 基于S-LDA进行特征词扩展
        3.4.3 扩展后的短文本向量表示
    3.5 实验及分析
        3.5.1 基于S-LDA的短文本分类框架
        3.5.2 短文本分类实验环境
        3.5.3 复旦语料数据预处理
        3.5.4 短文本分类评价标准
        3.5.5 短文本分类实验设置
        3.5.6 实验结果及分析
    3.6 基于S-LDA特征扩展的局限性
    3.7 本章小结
4 S-LDA-WV短文本分类
    4.1 神经网络语言模型
    4.2 Word2Vec词向量
        4.2.1 CBOW模型
        4.2.2 Skip-gram模型
    4.3 S-LDA-WV联合短文本表示
        4.3.1 Word2Vec_AVG短文本表示
        4.3.2 Word2Vec_TF-IDF短文本表示
        4.3.3 基于S-LDA主题模型进行特征扩展
        4.3.4 联合短文本表示
    4.4 实验结果及分析
        4.4.1 S-LDA-WV短文本分类框架
        4.4.2 头条标题数据预处理
        4.4.3 短文本分类实验设置
        4.4.4 实验结果及分析
    4.5 本章小结
5 总结与展望
    5.1 本文工作总结
    5.2 未来研究展望
参考文献
致谢
附录1 攻读硕士学位期间参与的项目和发表的论文



本文编号:3654447

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3654447.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b023d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com