基于文本聚类的事件时间摘要系统研究与实现
发布时间:2017-04-21 14:20
本文关键词:基于文本聚类的事件时间摘要系统研究与实现,由笔耕文化传播整理发布。
【摘要】:随着网络数据量急剧增加,人们无可避免的进入大数据时代,同时面临“数据爆炸”与“知识匮乏”的双重挑战。以新闻报道为例,当有突发新闻事件爆发时,用户会瞬间淹没于网络上铺天盖地的报道之中,但却难于及时、有效和全面的获取事件有用信息。因此,大数据时代亟需解决的问题不再是如何获取信息,而是如何及时、有效和全面的帮助用户在最短的时间内获取最有用的信息。有鉴于此,本文研究并实现了一个基于文本聚类的事件时间摘要系统,该系统的目标是高效的跟踪监测突发事件的发展变化过程,从海量的新闻报道中分析挖掘出该突发事件的主要有用信息,并以事件摘要的形式呈现给用户,使用户能够直观地掌握该事件的发展变化过程。本文的主要工作和创新点如下:首先,为了克服信息检索的查全率和查准率不高的问题,本文研究并实现了一种基于广义语义距离的查询扩展算法。该算法以词为单位,利用搜索引擎开放接口,基于词语间广义网络共现频率,实现词语间广义语义距离计算。与传统的基于静态本体(Ontology)的查询扩展方法相比,该方法能够有效提升算法的可靠性。其次,本文在研究分析了突发事件新闻文本结构特点的基础上,提出并实现了一种新的文本相似度计算方法。首先,通过将新闻事件要素提取建模成命名实体识别任务,有效地实现新闻事件要素的提取,并结合查询扩展结果建立新闻事件要素表示模型;其次,考虑到时效性是新闻事件报道的关键影响因素,本文在计算不同报道间相似度时引入时间窗的概念,建立了新闻事件时间表示模型;最后,综合新闻事件要素表示模型和新闻事件时间表示模型,共同计算新闻文本的相似度。实验结果表明,该算法优于传统算法,性能显著提高。再次,本文研究分析了大数据背景下各种聚类算法存在的局限性,结合突发事件的特征,研究利用动态层次聚类算法将杂乱无章的新闻报道依据不同的子主题进行归类。动态层次聚类算法可以考虑不同类之间的互连性,同时兼顾类间的近似度。实验结果证明,该算法能显著提高聚类性能。此外,本文设计的相关原型系统参加了Text REtrieval Conference(TREC)的Temporal Summarization(时间摘要)任务评测。评测结果位居所有参评团队的第二位,充分说明本文设计的方法能够达到预期的效果。
【关键词】:事件摘要 文本聚类 查询扩展 相似度计算
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前1条
1 张选平;蒋宇;袁明轩;马琮;梁平;;一种基于概念的信息检索查询扩展[J];微电子学与计算机;2006年04期
本文关键词:基于文本聚类的事件时间摘要系统研究与实现,由笔耕文化传播整理发布。
,本文编号:320542
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/320542.html