基于语料特征的文本分类算法研究

发布时间:2022-10-21 13:23
  互联网的快速发展使得文本信息大量增加,如何对有价值的文本信息进行精确分类是自然语言处理领域研究的热点之一。在进行文本分类时,由于传统方法容易忽略语料特征对分类效果的影响,因此考虑语料本身特征会对文本分类产生积极影响。该文采用有监督机器学习和深度学习分类算法,基于语料特征对文本分类进行了以下研究。首先,针对情感语料情感特征不明显问题,改进了词频逆文档(Term Frequency-Inverse Document Frequency,TF-IDF)特征权重算法。通过构建语料专用情感词典,匹配情感语料,实现了情感语料的特征增强和冗余信息去除,优化了用于情感语料分类的词频逆文档向量空间模型。实验结果证明,针对情感语料,该模型在多种分类器上提高了分类性能。其次,针对文本语料长度不平衡问题,基于卷积神经网络和长短期记忆网络分类模型,改进了模型处理语料数据的方法。在模型数据输入上,采用语句自循环方式对文本语料进行等长化处理,以达到调动全局神经单元提取特征的目的。实验结果表明,该方法加快了模型的收敛速度,提高了不等长语料分类的性能表现。最后,针对特定语料主题性强、上下文语义联系紧密的特点,设计了一种... 

【文章页数】:65 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题背景及研究的目的和意义
    1.2 国内外研究现状
    1.3 本文主要研究内容
    1.4 论文组织结构
第2章 文本分类基本流程
    2.1 文本数据预处理
    2.2 文本空间表示和特征选择
        2.2.1 文本空间表示
        2.2.2 文本的特征选择
    2.3 文本分类模型
        2.3.1 朴素贝叶斯
        2.3.2 支持向量机
        2.3.3 卷积神经网络
        2.3.4 循环神经网络
    2.4 本章小结
第3章 基于情感语料的特征权重分类模型研究
    3.1 传统特征权重模型
    3.2 情感分类向量空间模型
        3.2.1 自构建情感词典
        3.2.2 情感特征增强模型
        3.2.3 冗余信息去除模型
    3.3 实验数据处理
        3.3.1 实验环境
        3.3.2 数据获取及处理
    3.4 实验结果及分析
        3.4.1 情感特征增强模型实验
        3.4.2 冗余信息去除模型实验
    3.5 本章小结
第4章 基于语料长度的神经网络分类模型研究
    4.1 词向量及其训练模型
    4.2 不等长语料的神经网络分类模型
        4.2.1 文本自循环等长化
        4.2.2 自循环卷积神经网络模型
        4.2.3 自循环长短期记忆网络模型
    4.3 两种分类模型实验及对比
        4.3.1 数据处理及实验环境
        4.3.2 自循环卷积神经网络模型实验设置
        4.3.3 自循环长短期记忆网络模型实验设置
        4.3.4 两种分类模型实验结果及分析
    4.4 本章小结
第5章 基于主题语料的卷积门控网络分类模型研究
    5.1 用于特定主题语料的卷积门控网络模型
        5.1.1 模型思想
        5.1.2 自训练主题词向量
        5.1.3 模型总体架构
    5.2 卷积门控网络原理
        5.2.1 双向门控循环神经网络
        5.2.2 卷积门控网络结构
    5.3 模型实验
        5.3.1 实验数据及模型设置
        5.3.2 实验结果分析
    5.4 本章小结
结论
参考文献
致谢


【参考文献】:
期刊论文
[1]A Text Sentiment Classification Modeling Method Based on Coordinated CNN-LSTM-Attention Model[J]. ZHANG Yangsen,ZHENG Jia,JIANG Yuru,HUANG Gaijuan,CHEN Ruoyu.  Chinese Journal of Electronics. 2019(01)
[2]基于LSTM-Attention的中文新闻文本分类[J]. 蓝雯飞,徐蔚,汪敦志,潘鹏程.  中南民族大学学报(自然科学版). 2018(03)
[3]基于文本特征提取方法的文本分类研究[J]. 文峤.  电脑知识与技术. 2018(18)
[4]基于深度学习的文本分类研究进展[J]. 刘婷婷,朱文东,刘广一.  电力信息与通信技术. 2018(03)
[5]基于递归神经网络的文本分类研究[J]. 黄磊,杜昌顺.  北京化工大学学报(自然科学版). 2017(01)
[6]基于机器学习的中文微博情感分类实证研究[J]. 刘志明,刘鲁.  计算机工程与应用. 2012(01)
[7]基于Web的新闻文本分类技术的研究[J]. 胡凌云,胡桂兰,徐勇,李龙澍.  安徽大学学报(自然科学版). 2010(06)
[8]基于机器学习的文本分类技术研究进展[J]. 苏金树,张博锋,徐昕.  软件学报. 2006(09)



本文编号:3695730

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3695730.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户39baf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com