面向事件的社交媒体文本自动摘要研究
发布时间:2017-12-14 10:03
本文关键词:面向事件的社交媒体文本自动摘要研究
更多相关文章: 自动摘要 Encoder-Decoder 聚类算法 社交媒体 事件
【摘要】:自动文本摘要技术是自然语言处理领域重要的一个分支,初期主要广泛应用于长文本摘要任务中,例如科技论文、新闻领域等。近年来微博、Twitter等短文本形式的社交媒体快速广泛地流行起来,其方便和快捷的使用方式以及平台上的海量信息资源,使得人们开始通过社交媒体平台来实时地获取各种信息资源,尤其是真实的社会热点事件信息。然而社交媒体文本具有篇幅短小、内容碎片化等特点,且海量数据伴随着巨大的冗余,给用户识别和理解带来了很大的困难。因此,以社交媒体文本为目标数据集的自动摘要任务受到重视。已有的自动摘要方法大多是基于关键句子抽取的方式来组合形成摘要,但是该类方法由于忽略了对文本结构和语言特征的分析和理解,生成的摘要可读性较差,也不可避免地存在冗余问题。随着深度学习技术的不断进步,其在自动摘要领域的表现很好地弥补了抽取式摘要方法的不足,然而当前的研究对象仅在句子和段落级别,对于实际任务缺乏应用性。本文针对社交媒体上引起广泛讨论的真实社会事件,应用自动摘要技术生成一段可以较为全面地概括该事件的摘要文本来提供给用户,从而节省用户获取事件信息的时间和精力。第一,通过结合抽取式和抽象式摘要方法各自的优势,提出了将事件摘要任务划分为两步走的策略。第二,通过使用Canopy和K-means相结合的聚类技术和时间戳技术对事件的关键方面或其发展过程进行识别,形成了事件下的多个子主题簇。第三,受到人工摘要产生过程的启发,提出了一种改进的基于注意力模型的Encoder-Decoder框架模型MEOD作为本文使用的摘要生成模型,将第一步产生的子主题文本作为模型输入来生成子摘要,进而组合形成最终的事件摘要。通过对实验结果进行自动评测和人工评测,均显示本文摘要方法优于对比方法,有效证明了本文摘要方法的有效性。其中,子主题识别环节添加的社会特征和时间戳等信息有效地提高了子主题划分的准确性和完整性,基于Encoder-Decoder框架的摘要生成模型显著地提升了摘要质量,尤其是可读性方面。另外,本文提出的结合抽取式和抽象式两种摘要方法的思路,为面向短文本的多文档事件摘要研究提供了新的思考方向。
【学位授予单位】:武汉大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前2条
1 林滨;;K-Means聚类的多种距离计算方法的文本实验比较[J];福建工程学院学报;2016年01期
2 胡侠;林晔;王灿;林立;;自动文本摘要技术综述[J];情报杂志;2010年08期
,本文编号:1287472
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1287472.html