基于深度学习的新闻文本分类系统研究与实现

发布时间:2023-04-26 19:11
  随着互联网科技的迅猛发展和社交媒体的爆炸式增长,持续不断地产生海量信息,其中文本信息数量最大。新闻标题和即时消息等各种中文短文本信息的主要特点是稀疏性,仅由几个到几十个单词组成,有效信息包含量非常少,导致特征稀疏和特征集维度很高的样本很难为文本分类学习提供关键和准确的特征。本文主要研究深度学习在中文文本分类领域的应用,提出了基于单词级和字符级混合特征的文本分类模型。根据中文文本分析流程,结合改进的文本分类模型,设计了一套新闻文本分类原型系统,开发了新闻短文本分类系统平台。具体工作内容如下:1.提出了基于单词级和字符级混合特征的文本分类模型。针对中文短文本具有长度短、稀疏性和上下文依赖强等特点,本文分别使用以单词级向量和字符级向量作为输入的两个长短时记忆网络或双向长短时记忆网络对句子语义进行编码,然后将两个输出向量相加结合作为整个句子向量表示。利用NLPCC 2017中文新闻标题分类数据集进行实验,结果表明,对于中文短文本分类,单词嵌入和字符嵌入的结合使用可以在中文短文本的句子语义表示中相互补充,有助于提高中文短文本的分类性能。2.根据中文文本分析流程,结合本文提出的改进文本分类模型,设...

【文章页数】:78 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 本文的主要工作
    1.4 本文的组织结构
第二章 文本分类相关基础
    2.1 深度学习概述
    2.2 文本分类
        2.2.1 文本表示方法
        2.2.2 文本预处理
        2.2.3 文本分类算法
    2.3 性能评价指标
    2.4 TORNADO框架概述
第三章 基于单词级和字符级混合特征的文本分类模型
    3.1 模型结构设计
    3.2 实验环境与数据集
        3.2.1 实验环境配置
        3.2.2 数据集
    3.3 模型训练及参数设置
        3.3.1 文本特征表示
        3.3.2 模型训练
        3.3.3 模型参数设置
    3.4 结果分析
        3.4.1 对比模型介绍
        3.4.2 结果分析
    3.5 本章小结
第四章 新闻文本分类系统需求分析与设计
    4.1 系统需求概述
    4.2 系统设计目标
    4.3 业务需求分析
        4.3.1 新闻采集模块业务需求分析
        4.3.2 新闻处理模块业务需求分析
        4.3.3 新闻展示模板业务需求分析
    4.4 功能需求分析
    4.5 系统用例描述
    4.6 概要设计
        4.6.1 系统总体框架
        4.6.2 系统行为描述
    4.7 详细设计
        4.7.1 新闻采集模块设计
        4.7.2 新闻存储模块设计
        4.7.3 新闻分类模块设计
    4.8 本章小结
第五章 新闻文本分类系统实现与测试
    5.1 系统环境搭建
    5.2 功能模块实现
        5.2.1 新闻采集模块实现
        5.2.2 新闻存储模块实现
        5.2.3 新闻分类模块实现
    5.3 功能模块展示
        5.3.1 新闻采集和存储
        5.3.2 系统整体运行效果
    5.4 系统测试
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢
攻读学位期间发表的学术论文



本文编号:3802056

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3802056.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5125c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com