在线多源媒体的话题演化分析
发布时间:2020-06-13 05:36
【摘要】:随着互联网信息技术的迅猛发展,门户新闻网站、各类新闻媒体平台和搜索引擎构成的在线多源媒体已然成为了描述各类话题的重要载体。话题在大规模在线多源媒体中呈现的演化过程逐渐成为信息检索领域的一个重要的研究方向。主题模型在潜在语义挖掘和主题聚类等领域具有很多优势,近年来被广泛应用于话题演化研究领域。然而目前模型在话题演化的研究和应用中主要集中于在大型语料库中挖掘和划分不同的话题,而分析某一个特定话题演化过程的应用相对不足,其难点在于同一个话题的文本语义过于相似,不利于文本相似性计算或共现性统计,因此传统的主题模型很难发挥良好的效果。本文通过研究话题在在线多源媒体环境下的演化过程,提出基于多维特征的话题演化模型,在分层狄利克雷过程(HDP)的基础上,综合考虑话题语料库中文本的时间、关键词、句法关系和命名实体等特征,通过增量词向量训练的方法得到话题上下文语义关系,克服了文本语义颗粒过小导致的模型性能下降的问题,实现了话题在现实中的演化逻辑分析,挖掘话题在不同时期的焦点变化,呈现话题的演化图谱。本文的主要工作有:(1)构建话题特征集合库:新闻是话题在在线多源媒体环境下最直接和客观的表现形式之一,本文通过句法分析树分析和提取话题片断的主体、客体和行为等关系。在句法树和词性标注的基础上,获取话题片断的时间、位置、参与对象和组织机构等实体关系。最终实现提取话题片断的时间特征、句法特征(主体、客体和行为)和命名实体(位置、参与对象和组织机构)并构建话题的特征集合库。(2)话题语境下的词向量训练:针对研究话题的新闻语料库,在传统大规模新闻语料库的基础上进行增量词向量训练。通过词向量的训练结果构建基于话题语境的上下文语义关系,降低话题演化研究过程中的文本语义颗粒度。(3)基于多特征的话题演化模型:基于话题多维特征和词向量关系,本文提出了基于多特征的话题演化模型(MFTEM)。模型在传统分层狄利克雷过程(HDP)的基础上,从横向上扩展了时间维度,从纵向上增加了话题的多维特征,使模型更加符合话题演化的一般形式,并利用词向量包含的上下文语义关系,扩展了文本中词的语义,有利于分析和挖掘话题在不同阶段的焦点变化,有效描述了话题在在线多源媒体环境下的演化过程,建立话题的演化图谱。(4)实验验证:为了验证话题演化分析的准确性,本文基于现实门户新闻网站和各类新闻媒体平台,抓取了五个热门话题的新闻数据进行实验,并将实验结果与第三方人工标注的信息进行对比。从分析和对比结果可以得出:本文提出的MFTEM模型和特征选取方法能够有效分析和描述话题在现实中的演化过程,并且可以用符合人们对话题演化的认知逻辑呈现话题的演化图谱。同时,本文提出的模型算法以自动运行为主,对话题本身或模型均无需过多的先验知识和专业理论水平,就可以发挥较好的效果。
【图文】:
图 1.1 5·12 汶川地震演化图谱示例表 1.1 5·12 汶川地震演化情况时间 话题内容2008年5月12日 14:28汶川县发生8.0级地震2008年5月16日 温家宝赶往灾区指导抗震2008年5月18日 5月19日至21日为全国哀悼日,省级卫视、电视台的台标置灰,4:58天安门广场国旗降半旗,14时28分起全国默哀3分钟2008年5月21日 建立灾后恢复重建基金2008年5月27日 实行一省帮一县加快恢复重建2008年6月8日 地震灾后恢复重建条例公布2008年7月3日 国务院发布灾后重建指导从演化图谱和百科标注的话题演化信息可看出,汶川地震话题的演化过程经历了地震发生、抗震救灾、过渡安置和灾后重建等多个焦点的变化。在话题演化的各个阶段,
图 1.2 整体研究框图本文的研究内容包括:首先从在线多源媒体中获取和筛选话题相关新闻语料信息;其次提取新闻的时间特征、句法特征和命名实体特征,为了更精确地解析新闻描述内容的实际时间,本文基于句法依赖关系提取句子中的时间关系子图得到时间的完整表达式,并建立时间推理模型标准化表达式;同时为了克服同一话题下文本之间语义相似度过高的问题,本文基于话题语境对话题语料库进行增量词向量训练,使每个词项可以包含文本的上下文语义信息,降低了语义颗粒度;然后在特征提取和词向量的基础上,建立基于多特征的话题演化模型,生成各阶段子话题的时间、文档和特征分布;再次基于演化分析结果,根据需求对子话题进行筛选合并,提取各阶段子话题的关键信息和摘要内容;最后建立话题演化图谱。从应用场景的角度,,本文较以往研究最大的区别和特点是以往的研究主要针对大型语料库(包含多个话题),并从中挖掘和发现不同的话题划分,对于话题演化的工作倾向于利用时间关系跟踪各话题相关的文本,并展示每个单位时间内的关键信息。而本文主要针对用户关心的特定话题,在检测和跟踪话题相关文本的基础上,对该话题内部的演化过程进行进一步精细化划分,通过生成子话题的分布,得到话题各阶段的焦点变化、
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G206;TP391.1
本文编号:2710732
【图文】:
图 1.1 5·12 汶川地震演化图谱示例表 1.1 5·12 汶川地震演化情况时间 话题内容2008年5月12日 14:28汶川县发生8.0级地震2008年5月16日 温家宝赶往灾区指导抗震2008年5月18日 5月19日至21日为全国哀悼日,省级卫视、电视台的台标置灰,4:58天安门广场国旗降半旗,14时28分起全国默哀3分钟2008年5月21日 建立灾后恢复重建基金2008年5月27日 实行一省帮一县加快恢复重建2008年6月8日 地震灾后恢复重建条例公布2008年7月3日 国务院发布灾后重建指导从演化图谱和百科标注的话题演化信息可看出,汶川地震话题的演化过程经历了地震发生、抗震救灾、过渡安置和灾后重建等多个焦点的变化。在话题演化的各个阶段,
图 1.2 整体研究框图本文的研究内容包括:首先从在线多源媒体中获取和筛选话题相关新闻语料信息;其次提取新闻的时间特征、句法特征和命名实体特征,为了更精确地解析新闻描述内容的实际时间,本文基于句法依赖关系提取句子中的时间关系子图得到时间的完整表达式,并建立时间推理模型标准化表达式;同时为了克服同一话题下文本之间语义相似度过高的问题,本文基于话题语境对话题语料库进行增量词向量训练,使每个词项可以包含文本的上下文语义信息,降低了语义颗粒度;然后在特征提取和词向量的基础上,建立基于多特征的话题演化模型,生成各阶段子话题的时间、文档和特征分布;再次基于演化分析结果,根据需求对子话题进行筛选合并,提取各阶段子话题的关键信息和摘要内容;最后建立话题演化图谱。从应用场景的角度,,本文较以往研究最大的区别和特点是以往的研究主要针对大型语料库(包含多个话题),并从中挖掘和发现不同的话题划分,对于话题演化的工作倾向于利用时间关系跟踪各话题相关的文本,并展示每个单位时间内的关键信息。而本文主要针对用户关心的特定话题,在检测和跟踪话题相关文本的基础上,对该话题内部的演化过程进行进一步精细化划分,通过生成子话题的分布,得到话题各阶段的焦点变化、
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G206;TP391.1
【参考文献】
相关期刊论文 前4条
1 林盛;金培权;赵旭剑;岳丽华;;时间感知的Web搜索研究[J];计算机学报;2015年11期
2 怀宝兴;宝腾飞;祝恒书;刘淇;;一种基于概率主题模型的命名实体链接方法[J];软件学报;2014年09期
3 赵旭剑;杨春明;李波;张晖;金培权;岳丽华;戴文锴;;一种基于特征演变的新闻话题演化挖掘方法[J];计算机学报;2014年04期
4 周建英;王飞跃;曾大军;;分层Dirichlet过程及其应用综述[J];自动化学报;2011年04期
本文编号:2710732
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/2710732.html