当前位置:主页 > 社科论文 > 新闻传播论文 >

中文新闻话题动态演化及其关键技术研究

发布时间:2020-04-08 04:49
【摘要】:随着互联网的发展,网络新闻的日益普及已经成为一个不可阻挡的趋势。相对传统新闻媒体,网络新闻在时效性与互动性上的优势使它对于社会重大事件的报道具有更为深远的影响力,成为人们获取新闻信息的主要来源。通常,人们希望能够将与某一事件相关的网络新闻信息整合成一个新闻话题,从而能够全面地了解新闻事件的概貌。面对这样的需求,以新闻话题为研究对象,结合不同的研究领域,衍生出了面向互联网的新闻搜索、新闻聚类、新闻分类、新闻热点挖掘等多个研究方向,较好地解决了新闻话题的检测问题。但是,传统的新闻话题检测以新闻信息的文本话题抽取为主要的目标,缺乏对新闻话题的动态演化特性的挖掘和支持。随着用户对于新闻自动组织能力要求的提高,如何通过新闻话题的动态演化研究对网络新闻流数据进行合理、有序的自动化处理与组织成为当前互联网信息处理技术的热点问题。 新闻话题动态演化(或简称话题动态演化)研究是对文本话题演变过程的时态语义挖掘。它首先建立在传统的话题模型研究理论基础之上,将话题转化为可进行计算和比较的信息表示模型,同时结合文档的时间信息,充分研究话题演化的不同阶段下与话题内容紧密关联的话题时间,并根据时间顺序构建话题序列,之后通过聚类的方法,深入挖掘演化过程中话题在强度和内容上的变化轨迹。话题动态演化研究可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差异性,因此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作用和应用前景。 在这样的研究背景下,本论文针对新闻话题动态演化研究中的理论性问题与技术挑战,以中文新闻为基础,对新闻话题动态演化中的若干关键问题进行了深入研究。论文首先介绍了新闻话题动态演化研究的背景和意义,分析了该研究的系统框架和主要研究对象,讨论了该领域的国内外相关工作,从理论上阐述了新闻话题动态演化研究的基本思想和研究思路。 接着,论文围绕话题模型、时态信息处理以及话题动态演化挖掘三个方面展开深入研究,提出一种面向中文网络新闻的话题信息抽取方法,同时,给出一种针对真实新闻文本的时态表达规范化处理算法,在此基础上,又构建一个面向中文新闻网页的话题时间解析器,自动抽取话题时间,最后结合以上工作,提出一种具有统一框架的新闻话题演化挖掘算法。 本论文的主要贡献可归纳为以下几个方面: (1)针对中文新闻话题信息抽取正确率低导致话题模型性能下降的问题,提出了一种基于语言学知识的中文新闻话题信息抽取方法。该方法基于对互联网新闻特征的研究,通过引入中文词性与位置特征建立启发式规则,修正了错误标注的话题词候选对象,进而有效扩充了话题词对象集合,提高了抽取结果的语义正确性和话题完整性。 (2)针对目前时态表达规范化处理相关工作中参照时间选择机制不能适应真实新闻文本的问题,提出了一种基于参照时间动态选择的时态表达规范化算法。通过挖掘时态表达中修饰符和时态名词两部分内容各自的时态参照特征,对其进行参照分类,在此基础上根据时态表达的类别为其分配正确的参照时间,同时利用场景-时间转换模型解决模糊时间的去模糊化问题,显著提高了时态表达规范化系统的准确率和普适性。 (3)针对新闻话题时间抽取算法准确率较低的问题,提出了一种基于话题-时间依存关系模型的话题时间抽取方法。该方法通过深入研究不同类型新闻的报道特性和网页的结构特点,挖掘话题信息与时间信息之间具有的位置依存关系和语义依存关系,构建话题-时间映射模型,并以该模型为理论指导,利用话题权重和无监督学习两种策略抽取新闻报道中的话题时间。该算法较同类方法具有更高的准确率,大大改善了现有工作中新闻话题与话题时间相关性差的问题。 (4)针对已有话题动态演化挖掘方法在模型特征计算与模型动态更新上的不足,提出了一种基于特征演变的新闻话题动态演化挖掘方法。通过引入词项特征在话题演化过程中的变化特性,构建增量式特征计算模型,并且利用已有话题相关文档和最新文档进行话题特征的正向融合和逆向过滤,显著提高了话题模型的准确率,充分改善了关联计算的整体性能,进而有效提高了最终挖掘结果的正确性和完整性。 通过本论文的研究,我们解决了目前信息处理技术对于新闻话题演化特性研究的不足,建立了以时间线索挖掘话题动态演化的理论框架,提出了新闻话题动态演化研究的系统方法,为以话题动态演化研究为理论指导的新闻专题集成和网络舆情预警奠定了理论基础,也为Web环境下公共安全与应急决策理论和技术的进一步发展提供了新的思路。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:G210;TP393.09

【引证文献】

相关期刊论文 前1条

1 廖君华;孙克迎;钟丽霞;;一种基于时序主题模型的网络热点话题演化分析系统[J];图书情报工作;2013年09期



本文编号:2618913

资料下载
论文发表

本文链接:https://www.wllwen.com/xinwenchuanbolunwen/2618913.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户064ae***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com