基于深度学习的网络热点新闻预测方法研究
发布时间:2020-06-02 01:52
【摘要】:现如今,互联网的发展如火如荼,催生了多种网络应用。特别是Web2.0与大数据时代的到来,通过大量的网络新闻数据来分析股市,个人理财,关注国家财政大事。网络新闻这一简单快捷的方式,逐渐受到了越来越多用户的青睐。然而各大新闻网站每天报道的新闻数目繁多,质量良莠不齐,用户不可能耗费精力全部查看进而获得有用信息,用户往往只关注网络热点新闻,因此本文针对网络热点新闻的预测问题展开研究,结合新闻文本的特点,论文主要工作如下:1)网络新闻数据的抓取与预处理:使用python设计并实现了网络新闻数据抓取系统,使用爬虫从搜狐新闻网站上的财经新闻专栏抓取以下两类新闻:热点新闻和非热点新闻,并通过时间的积累长期抓取,以获得大量的财经新闻数据,之后将新闻进行整合。为了避免不必要的误差,在形成中文语料库之前,其中中文文本的分词、去停用词处理必不可少,经过一系列的处理最终得到标注着热点和非热点的新闻语料库。2)提出网络热点新闻的深度学习模型:使用双层双向长短期记忆神经网络LSTM的变体GRU和注意力机制Attention来搭建网络新闻流行度预测的深度学习网络模型,在中文维基百科和搜狗实验室网络新闻语料库上使用Word2Vec训练词向量,使用词嵌入层(Word Embedding)将新闻文本用词向量表示,使用预训练的词向量进行初始化,并在模型的训练过程中不断调整,从使用词向量表示的新闻文本中提取抽象化的特征;最后使用全连接层(Dense)进行网络热点新闻的预测。实验结果表明,仅仅通过简单的调参,基于BIGRU-ATTENTION的模型预测结果优于其他基础深度学习模型以及传统机器学习模型,并且使用GRU代替LSTM,提高了效率,节约程序运行时间,为深度学习进行文本分类奠定了良好的基础。
【学位授予单位】:西安科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;TP391.1
本文编号:2692421
【学位授予单位】:西安科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;TP391.1
【参考文献】
相关期刊论文 前5条
1 孔庆超;毛文吉;;基于动态演化的讨论帖流行度预测[J];软件学报;2014年12期
2 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期
3 李良荣;童希;;互联网时代新闻报道新思维[J];现代传播(中国传媒大学学报);2010年10期
4 杨伟杰;戴汝为;崔霞;;一种基于信息检索技术的网络新闻影响力分析方法[J];软件学报;2009年09期
5 黄鹂;论网络媒体传播功能的特点[J];华中理工大学学报(社会科学版);2000年02期
,本文编号:2692421
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2692421.html