当前位置:主页 > 科技论文 > 软件论文 >

基于卷积神经网络的中美新闻文本分类及差异性研究

发布时间:2021-07-09 02:05
  随着大数据时代的来临,信息的获取变得简单,而在海量数据中挖掘有价值的信息成为了新的挑战。新闻媒体是我们获取信息的重要渠道,研究新闻文本的分类问题在大数据时代具有重要意义。随着深度学习研究的深入,其已经在图像识别和语音识别等领域取得了突出进展,将深度学习应用于文本分类领域,具有重要的研究和应用价值。本文介绍了文本分类的发展历史与研究意义,简述了深度学习算法在文本分类领域的应用,并详细介绍了卷积神经网络算法,针对当前文本分析领域面临的问题,提出基于卷积神经网络的新闻文本分类算法,并对中美新闻媒体报道新闻的差异性进行了比较。本文的主要研究内容如下:1.利用爬虫技术持续爬取中美各大新闻门户网站发布的新闻内容,依据社会学的定义将新闻按照内容划分为32个类别,人工标注其中的一部分新闻当作训练集。经过预处理和特征提取后将文本输入搭建好的卷积神经网络模型中进行训练。相比于直接从互联网上获取的新闻语料库,本文使用的新闻数据集类别多样,且具有时效性,能够说明卷积神经网络在多类别文本分类任务中的性能。本文训练的网络模型在中文新闻文本上的准确率达到了83%,在英文新闻文本上达到了90%。2.利用训练好的卷积神... 

【文章来源】:广西大学广西壮族自治区 211工程院校

【文章页数】:60 页

【学位级别】:硕士

【部分图文】:

基于卷积神经网络的中美新闻文本分类及差异性研究


图2-3卷枳神经网络结构??Fig.?2-3?Structure?of?convolutional?neural?network??

后文本


带词典库中出现的词,引入了HMM模型,生成新的词语。分词前后的效果对比如下图??所示:??图3-2分词前文本??Fig.?3-2?Pre-word?segmentation?text??图3-3分词后文本??Fig.?3-3?Text?after?word?segmentation??分词之后要去掉停用词,停用词就是一些没有什么具体含义,对于文本分类没饤帮??助,而且增加了文本冗余度的词语。本文使用的停用词库是由网络上常见的停)丨况和针??对爬取的新闻文本增加的停用词结合而成,具体步骤如卜、??(1)

新闻文本,后文本,文本分类,词语


图3-2分词前文本??Fig.?3-2?Pre-word?segmentation?text??图3-3分词后文本??Fig.?3-3?Text?after?word?segmentation??分词之后要去掉停用词,停用词就是一些没有什么具体含义,对于文本分类没饤帮??助,而且增加了文本冗余度的词语。本文使用的停用词库是由网络上常见的停)丨况和针??对爬取的新闻文本增加的停用词结合而成,具体步骤如卜、??(1)

【参考文献】:
期刊论文
[1]改进的卷积神经网络行人检测方法[J]. 徐超,闫胜业.  计算机应用. 2017(06)
[2]基于深度卷积神经网络的图像目标检测[J]. 尹勰,闫磊.  工业控制计算机. 2017(04)
[3]基于卷积神经网络的自适应权重multi-gram语句建模系统[J]. 张春云,秦鹏达,尹义龙.  计算机科学. 2017(01)
[4]基于卷积神经网络的连续语音识别[J]. 张晴晴,刘勇,潘接林,颜永红.  工程科学学报. 2015(09)
[5]基于深度信念网络的文本分类算法[J]. 陈翠平.  计算机系统应用. 2015(02)
[6]基于LDA模型的文本聚类研究[J]. 王鹏,高铖,陈晓美.  情报科学. 2015(01)
[7]基于SVM和CRF多特征组合的微博情感分析[J]. 李婷婷,姬东鸿.  计算机应用研究. 2015(04)
[8]基于深度学习的微博情感分析[J]. 梁军,柴玉梅,原慧斌,昝红英,刘铭.  中文信息学报. 2014(05)
[9]面向微博系统的实时个性化推荐[J]. 高明,金澈清,钱卫宁,王晓玲,周傲英.  计算机学报. 2014(04)
[10]一种新型朴素贝叶斯文本分类算法[J]. 邸鹏,段利国.  数据采集与处理. 2014(01)



本文编号:3272791

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3272791.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f7b10***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com