新闻事件的自动摘要研究

发布时间:2021-04-21 05:57
  随着互联网的快速发展,网络新闻的数量飞速增长,人们面对海量的新闻信息难以准确快速地获取到自己所需的关键信息。为此,本文设计了一种新闻事件的自动摘要系统。该系统能够根据用户输入的关键词采集相关事件的新闻报道,获得新闻事件的演化过程和各个子话题的文本摘要。本文的主要工作和创新点如下。首先,出一种改进的Single-Pass聚类算法。此算法利用Doc2vec模型表示新闻文本信息,该模型能较好地挖掘文本的语义信息。针对新闻事件子话题的特点,设计了一种新闻报道的复合相似度计算方法。此方法充分考虑了新闻标题对新闻文本信息表达的重要性,由新闻标题和新闻正文内容各自相似度组成新闻报道的文本相似度。另外考虑到发布时间是新闻子话题聚类的关键影响因素,于是引入新闻报道的时间相似度计算方法。接着,综合利用新闻报道的文本相似度和时间相似度共同计算新闻报道的复合相似度,给出了改进的聚类算法。其次,出一种基于TextRank的自动文本摘要算法。针对句子的表示问题设计了一种基于Word2vec模型的表示方法来完成文本的自动摘要工作:(1)采用所出的句子表示方法将句子文本向量化;(2)从句子之间的相似度、关键词的覆盖率... 

【文章来源】:南京理工大学江苏省 211工程院校

【文章页数】:71 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景与意义
    1.2 相关工作的研究现状
        1.2.1 话题检测与跟踪技术
        1.2.2 自动文本摘要技术
    1.3 本文的主要研究工作
    1.4 本文结构
2 相关理论与技术
    2.1 网络爬虫技术
    2.2 文本预处理及表示模型
    2.3 话题检测与跟踪相关技术
        2.3.1 话题检测与跟踪相关理论
        2.3.2 新闻报道相似度计算
        2.3.3 类簇之间距离表示法
        2.3.4 文本聚类方法
        2.3.5 文本聚类评价方法
    2.4 自动文本摘要相关技术
        2.4.1 自动文本摘要基本介绍
        2.4.2 自动文本摘要评价方法
    2.5 本章小结
3 改进的Single-Pass子话题聚类算法
    3.1 新闻报道表示模型
        3.1.1 Doc2vec模型概述
        3.1.2 新闻报道特征取
    3.2 文本聚类算法
        3.2.1 Single-Pass聚类算法
        3.2.2 新闻报道复合相似度计算
        3.2.3 改进的Single-Pass聚类算法
    3.3 聚类实验与结果分析
        3.3.1 实验环境
        3.3.2 实验数据及评价标准
        3.3.3 新闻报道复合特征向量平衡因子的确定
        3.3.4 类簇相似度的取值
        3.3.5 聚类结果分析
    3.4 本章小结
4 改进的TextRank算法
    4.1 文本特征表示
        4.1.1 Word2vec模型概述
        4.1.2 改进的句子文本表示方法
    4.2 文本摘要算法
        4.2.1 TextRank算法
        4.2.2 改进的TextRank算法
    4.3 文本摘要实验与结果分析
        4.3.1 实验环境
        4.3.2 实验数据与评价标准
        4.3.3 影响因子加权系数的确定
        4.3.4 实验结果及分析
    4.4 摘要润色处理
    4.5 本章小结
5 系统设计与实现
    5.1 系统设计
    5.2 系统核心模块设计
        5.2.1 新闻数据采集模块
        5.2.2 文本预处理模块
        5.2.3 子话题聚类模块
        5.2.4 自动文本摘要模块
        5.2.5 Web展示模块
    5.3 系统功能展示
    5.4 本章小结
6 总结与展望
    6.1 本文总结
    6.2 未来工作展望
致谢
参考文献
附录


【参考文献】:
期刊论文
[1]爬虫技术在互联网领域的应用探索[J]. 杨青松.  电脑知识与技术. 2016(15)
[2]基于改进的TextRank的自动摘要提取方法[J]. 余珊珊,苏锦钿,李鹏飞.  计算机科学. 2016(06)
[3]大数据聚类算法综述[J]. 海沫.  计算机科学. 2016(S1)
[4]深度学习理论综述[J]. 韩小虎,徐鹏,韩森森.  计算机时代. 2016(06)
[5]面向社交媒体文本的话题检测与追踪技术研究综述[J]. 彭敏,官宸宇,朱佳晖,谢倩倩,黄佳佳,黄济民,杨绍雄,高望,应称.  武汉大学学报(理学版). 2016(03)
[6]基于主题词的微博热点话题发现[J]. 叶成绪,杨萍,刘少鹏.  计算机应用与软件. 2016(02)
[7]使用关键词扩展的新闻文本自动摘要方法[J]. 李峰,黄金柱,李舟军,杨伟铭.  计算机科学与探索. 2016(03)
[8]基于Single-Pass的网络舆情热点发现算法[J]. 格桑多吉,乔少杰,韩楠,张小松,杨燕,元昌安,康健.  电子科技大学学报. 2015(04)
[9]基于链接和萤火虫算法聚类博文发现热点话题[J]. 王雅琳,陆向艳,钟诚.  计算机工程与设计. 2015(06)
[10]基于LDA模型的微博话题发现技术研究[J]. 李凤岭,朱保平.  计算机应用与软件. 2014(10)

硕士论文
[1]话题检测与跟踪算法的研究[D]. 张美珍.北京交通大学 2010



本文编号:3151195

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3151195.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cb0b1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com