当前位置:主页 > 科技论文 > 软件论文 >

基于Spark的多领域网络新闻热点挖掘技术研究与实现

发布时间:2023-08-08 18:52
  随着信息技术持续不断的快速发展,信息产生与传播的速度与日俱增,与此同时,移动互联网技术的更新迭代与智能终端的大规模应用,使人们获取信息的方式也变得简单快捷。在此背景下,报纸、电视等定时新闻播报方式的影响逐渐式微,门户网站、新闻网站以及社交媒体等新闻传播平台成为人们关注时事热点的主要渠道。然而,互联网中的资讯平台不断增加,新闻报道的数量呈指数式增长,网络新闻资讯逐渐变得杂乱和臃肿。对于单用户来说,虽然能够从新闻客户端的个性化推荐中获取热点新闻,但其“量身定制”的新闻信息存在同质化严重、限制用户阅读选择自由等问题,使用户自主及时地从互联网中获取其感兴趣领域的新闻热点并追踪其发展趋势变得愈发困难。因此,应用先进的大数据技术处理和分析海量的新闻信息,使用户能够自主选择关注不同领域的热点话题,具有重要的研究意义。基于上述分析,本文结合网络新闻热点话题的特点和大数据处理平台的优势,设计并实现了基于Spark的多领域网络新闻热点挖掘系统,有效提升了新闻热点挖掘与追踪的性能。本文完成的主要工作包括:(1)针对多领域网络新闻分类问题,提出基于混合采样的集成fastText新闻自动分类模型,使用户能够自主...

【文章页数】:91 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景
    1.2 国内外研究现状
    1.3 论文主要内容
        1.3.1 研究内容
        1.3.2 主要贡献与创新
    1.4 论文的组织结构
第二章 相关理论与技术
    2.1 网络爬虫技术
    2.2 自然语言处理技术
        2.2.1 中文分词技术
        2.2.2 文本特征表示模型
        2.2.3 文本分类算法
    2.3 聚类算法
    2.4 大数据技术
    2.5 本章小结
第三章 多领域网络新闻分类技术研究
    3.1 fastText分类算法
        3.1.1 fastText的基本原理
        3.1.2 基于fastText算法的分类流程
    3.2 基于集成fastText的并行化网络新闻分类模型
        3.2.1 基于集成fastText的网络新闻分类模型
        3.2.2 基于Spark的并行化集成fastText模型实现
    3.3 本章小结
第四章 新闻热点话题挖掘与追踪技术研究
    4.1 新闻文本特征表示
        4.1.1 LDA主题模型
        4.1.2 命名实体识别技术
        4.1.3 NE-LDA主题模型
        4.1.4 基于Word2Vec的文本向量化
        4.1.5 基于NE-LDA和Word2Vec结合的新闻文本特征表示
    4.2 基于Single-Pass的并行化新闻话题挖掘
        4.2.1 基于Single-Pass的新闻话题挖掘
        4.2.2 基于Spark的并行化Single-Pass算法实现
    4.3 话题全生命周期热度评估
    4.4 基于位置属性的热点话题推荐
    4.5 本章小结
第五章 基于Spark的多领域网络新闻热点挖掘系统的设计与实现
    5.1 系统总体设计
        5.1.1 系统静态结构设计
        5.1.2 系统动态结构设计
    5.2 系统详细设计及实现
        5.2.1 数据采集模块
        5.2.2 数据存储模块
        5.2.3 网络新闻分类模块
        5.2.4 热点话题挖掘模块
        5.2.5 热点话题展示模块
    5.3 本章小结
第六章 系统测试及验证
    6.1 系统环境搭建与部署
    6.2 网络新闻分类模块测试
    6.3 热点话题挖掘模块测试
        6.3.1 话题挖掘算法有效性测试
        6.3.2 话题热度评估方式准确性测试
    6.4 热点话题展示模块测试
    6.5 系统总体测试
    6.6 系统核心功能展示
    6.7 本章小结
第七章 总结与展望
    7.1 工作总结
    7.2 下一步研究方向
参考文献
致谢
作者攻读学位期间发表的学术论文目录



本文编号:3840296

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3840296.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户866e1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com