基于新浪新闻数据分析的新闻热度预测方法研究

发布时间:2022-08-12 15:34
  我们身处在信息爆炸式增长的时代,有数据显示,截止到2018年6月,我国拥有的手机网民数量已经高达7.88亿人次,这个庞大的用户群体在新闻网站、微博、Facebook、微信等不同的社交平台上制造着大量的网络数据。目前针对新闻及其评论数据的研究比较少,缺乏量化分析。对于网络新闻而言,新闻评论是其传播、发酵的重要组成,从另外一个角度来说,与以往的传统媒体相比,网络媒体的传播深度和广度是极快极广泛的,容易形成民众热议的舆论事件,导致一些事件的解决难度增加,所以,提前发现可能成为热议事件的新闻可以帮助相关监管部门监测网络舆情的发展,避免网络暴力事件的发生,利于维护社会的安定。本文首先抓取了新浪新闻娱乐、科技、体育、财经、军事、收藏六个类别的116595条新闻数据以及对应的4926412条评论数据,对数据进行清洗并入库。针对不同类别的新闻,利用NumPy、Pandas、Matplotlib等工具分析了新闻评论的空间分布特征,包括新闻类别、参与讨论人数、新闻发布时间等因素,从时间上分析评论数据的产生过程得到其时间分布特征。接下来以评论数和点赞数加权之和作为新闻的热度值,从小时和周天两个维度再次分析了... 

【文章页数】:74 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 网络爬虫技术
        1.2.2 集成学习
        1.2.3 新闻热度预测
    1.3 论文主要研究内容
    1.4 论文结构安排
2 理论基础概述
    2.1 网络爬虫概述
        2.1.1 网络爬虫的定义
        2.1.2 网络爬虫的分类
    2.2 回归算法
        2.2.1 机器学习概述
        2.2.2 常用回归算法简介
    2.3 集成学习
        2.3.1 集成学习简介
        2.3.2 集成学习方法介绍
    2.4 算法评价指标
        2.4.1 均方根误差
        2.4.2 平均绝对误差
        2.4.3 决定系数
    2.5 本章小结
3 网络新闻数据获取及预处理
    3.1 网络新闻数据获取及存储
        3.1.1 数据获取总体设计
        3.1.2 数据获取实现
        3.1.3 数据存储设计
    3.2 数据清洗
    3.3 本章小结
4 网络新闻数据分析
    4.1 数据分析工具介绍
    4.2 实验数据构成
    4.3 新闻评论分布特征分析
        4.3.1 新闻评论空间分布特征
        4.3.2 新闻评论时间分布特征
    4.4 新闻热度相关分析
        4.4.1 新闻热度定义
        4.4.2 以小时为单位分析发布时间与新闻热度关系
        4.4.3 以周天为单位分析发布时间与新闻热度关系
    4.5 本章小结
5 新闻热度预测方法研究及实验分析
    5.1 多元线性回归算法
        5.1.1 算法原理
        5.1.2 算法实战
    5.2 KNN算法
        5.2.1 算法原理
        5.2.2 算法实践
    5.3 梯度提升决策树算法
        5.3.1 算法原理
        5.3.2 算法实践
    5.4 改进的集成学习算法
    5.5 实验结果分析
        5.5.1 实验环境
        5.5.2 实验数据
        5.5.3 特征提取
        5.5.4 实验结果评价指标
        5.5.5 算法实验结果分析
    5.6 本章小结
6 总结与展望
    6.1 论文研究成果
    6.2 论文中存在的不足
    6.3 未来工作展望
致谢
参考文献
研究成果及发表的学术论文



本文编号:3676136

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3676136.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户29275***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com