当前位置:主页 > 社科论文 > 图书档案论文 >

基于深度学习的网络新闻文本分类研究

发布时间:2020-10-28 01:10
   网络新闻作为大数据时代人们获取社会有效信息的重要手段,受到了人们的广泛关注。实现对海量网络新闻智能高效的分类,对个性化新闻推荐、话题识别与跟踪、新闻网站分类导航等都具有重要意义。随着计算机技术的发展以及互联网的普及,网络新闻信息资源呈现爆炸式增长。面对海量且混乱无序的网络新闻信息,用户所面临的难题不再是如何获取新闻信息,而是如何在大规模新闻资源中高效准确的找到能够满足自身需求的信息。随着信息化时代的发展,用户对获取信息的内容和质量的要求也在不断提升,新闻信息作为网络新闻用户获取社会信息资源的重要渠道,随着文本分类技术的发展和成熟,为文本分类在网络新闻领域的应用和实践奠定了基础,网络新闻文本分类的发展迎来了新的契机。为了能够提升网络新闻领域的信息服务质量,满足用户在大数据时代的多样化和个性化信息需求,本文在深入研究网络新闻文本分类的背景、研究现状、相关理论和发展等内容的基础上,采用文献计量法对文本分类领域近十年发表的相关文献进行统计分析,从年度发文趋势、学科分布、期刊分布、机构分布、作者分布、高被引文献分析以及研究热点与前沿等方面理清文本分类领域的发展脉络和研究现状,为促进文本分类领域的进一步发展提供理论参考依据。与此同时,为网络新闻领域构建了一个高效的网络新闻文本分类模型框架。该模型主要由四个部分组成,分别是新闻文本预处理、基于词向量的新闻文本表示、新闻文本特征提取与分类以及文本分类结果评价。在实验过程中首先通过学习得到新闻文本的稠密的Word2Vec词向量表示,从而解决传统文本表示的高纬度、数据稀疏及缺乏语义等问题,然后以新闻文本词向量为输入,通过卷积神经网络对新闻文本特征进行自动学习和提取,从而避免传统新闻文本分类方法人工参与特征提取的费时费力及误差累积的缺点,实验结果显示该方法可以有效的提高网络新闻文本分类的效率,促进新闻领域实现更加有效的信息组织和管理。本文提出的基于深度学习的网络新闻文本分类模型具有可行性,能够给用户提供更优质的新闻信息服务,对网络新闻文本分类技术的发展提供了一定的参考价值。
【学位单位】:山西财经大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:G254
【部分图文】:

文本分类,领域,团队,文本特征


图 3.3 文本分类领域作者合作图从图 3.3 中可以看出,文本分类领域之间的作者整体联系较为稀疏,主要有 3个合著团队。①以朱颢东为中心的合作网络,该团队中朱颢东和钟勇来自中国科学院、李红婵来自郑州轻工业学院等,主要研究文本分类中的文本特征选择方法,通

共现,文本分类,关键词,领域


文章的关键词是论文作者对文章核心研究内容的高度概括和提炼,某学科领域里高频出现的关键词可被视为该领域的研究热点,通过对高频关键词进行词频统计和共现分析,能够快速有效地掌握某一领域的研究热点。图 4 是利用citespace5.2 绘制的近十年的文本分类领域的关键词共现知识图谱。

框架图,文本分类,网络新闻,框架


新闻领域中的文本分类问题时,存在许多难以解决的问题。在进行特征提取的过程中需要人工的参与,会影响最终提取的文本特征的准确性;利用向量空间模型进行文本表示会忽略文本中的语序和语义信息,影响文本分类的性能;面对高纬度、数据稀疏性问题,虽然可以利用特征选择方法进行降维,但这样会进一步加剧了文本特征丢失的问题,而且使得整个文本分类过程更加复杂。Joachims 认为在文本分类过程中,与分类不相关的特征是非常少的,好的文本分类模型应该使用所有的特征[54]。因此,为了更好地完成大数据时代下网络新闻领域的文本分类任务,引入更为巧妙的文本特征表示方式和更高精度的文本特征提取模型是十分有必要的。在本文介绍的基于深度学习的网络新闻文本分类模型中包括:文本预处理、基于词向量的文本表示、利用卷积神经网络进行文本特征提取和分类、文本分类结果评价四个模块,利用词向量的方法对文本特征进行表示,采用深度学习模型中的卷积神经网络对文本特征进行提取并完成最终分类。基于深度学习的网络新闻文本分类的主要流程如下图 4.1 所示。
【参考文献】

相关期刊论文 前10条

1 尹宝才;王文通;王立春;;深度学习研究综述[J];北京工业大学学报;2015年01期

2 尹丽英;赵捧未;;基于语义网络社团划分的中文文本分类研究[J];图书情报工作;2014年19期

3 叶鹰;;浪潮与沙滩:略谈图书情报研究热点和研究前沿[J];国家图书馆学刊;2014年03期

4 汪海燕;黎建辉;杨风雷;;支持向量机理论及算法研究综述[J];计算机应用研究;2014年05期

5 徐明;高翔;许志刚;刘磊;;基于改进卡方统计的微博特征提取方法[J];计算机工程与应用;2014年19期

6 刘建伟;刘媛;罗雄麟;;深度学习研究进展[J];计算机应用研究;2014年07期

7 刘海峰;于利军;刘守生;;一种基于类别分布信息的文本特征选择模型[J];图书情报工作;2013年15期

8 薛春香;张玉芳;;面向新闻领域的中文文本分类研究综述[J];图书情报工作;2013年14期

9 李建林;;一种基于PCA的组合特征提取文本分类方法[J];计算机应用研究;2013年08期

10 孙志军;薛磊;许阳明;王正;;深度学习研究综述[J];计算机应用研究;2012年08期



本文编号:2859340

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2859340.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户800c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com