【摘要】:在现今社会,随着近十年计算机科学迅猛发展的浪潮,多文档摘要技术已经逐渐成长为一个令人兴奋并充满着挑战的研究前沿,往往通过自然语言处理和信息检索的联合技术来加以解决。面对着当今互联网上的信息快速增长,找寻信息的人们往往会发现自己很难能跟上信息更新的频率和速度。新闻信息如洪水一般在互联网上汹涌袭来,人们很容易被“淹没”在浩如烟海的信息中,不知道从何开始。因此,人们认为对新闻信息的自动理解已经成为Web信息处理的一个重要成分。 对于一个演进式的新闻主题而言,人们往往有着多重兴趣,如:该事件是如何起始的,如何发展的,当前状况又是如何,但是传统的新闻理解技术并不足以应对用户的这种需求。普通的搜索引擎仅仅只能按照它们的理解对新闻数据按照查询相关度来进行排序,但是它们很难应对各种意图模糊的新闻主题类查询。再比如说,即使搜索引擎返回给用户的结果排序十分理想(虽然这不太可能),用户也不太会愿意将这些文档一一阅读。人们希望能够有一种简单浏览的方式来掌握整个事态的发展流程和演化轨迹。而新闻摘要则正是一个很好的解决方式,可以提供一个经过了压缩,具有极大信息含量的文档重组织和展现形式,可以让用户能轻松掌握事件的发展。我们提出了“时序年表”(Timeline)的概念,把一个演进式的新闻按照时间的维度,动态的摘要生成为一系列相互独立又互相依赖的子摘要,从而提供了一个展示事件发展全景概况的灵活方式。 本文具体工作和创新性如下: 1.我们提出了一个面向新闻文档的全新文本分段算法。相比于传统的多文档摘要任务而言,演进式新闻文档摘要面向的是更为庞大的海量新闻数据集。因此,我们在开始摘要生成工作之前,首先会进行一些针对新闻特征的预处理。由于一篇新闻文档并非是完全不可再分的:一篇新闻文档通常包含了不止一个事件,而每个事件可能代表着某个新闻主题的某个侧面,因此我们从新闻文档中,抽取出具有原子事件特征的新闻元片段。在同一篇新闻文档中的所有新闻元事件在一定程度上也是彼此互相独立的。所以,对于它们而言,并不是所有新闻元都和某个特定的新闻主题紧密关联。经过一个细粒度的事件元提取过程,我们可以去除一些事件无关的描述性语句或者过滤掉和当前新闻主题无关的新闻元事件,通过这种方式对海量数据进行一步压缩和预处理。这项工作的挑战也很明显,我们需要应对来自文法(如文本,命名实体,时间等)、句法(句子位移,连接词等)以及视觉要素上的一些约束来进行新闻元片段提取。 2.我们引入了一种全新的摘要任务“演进式动态新闻文档摘要”,并提出了两种解决的算法框架,这些算法框架都可以推广到所有依赖式摘要生成问题中。给定一个新闻主题文档集合,系统会自动输出一个时间年表,而该时间年表下的一系列子摘要代表着该事件随着时间推移的发展轨迹。两个方法之一是基于全局优先图排序算法和局部优先图排序算法的优化结合框架,考虑到句子之间跨时间的依赖关系以及同时间下的相互依赖关系。其中,跨时间依赖关系是通过一个时序投影函数,将所有其他时间结点下的句子都投影到某个特定的时间平面上来加以建模的。第二种方式是一个基于约束条件下的迭代式句子替换框架,从一个句子集合中优选出最佳句子的子集合生成摘要:子摘要之间不是完全独立的,而是通过邻居子摘要来互相优化互相精炼生成,反映出新闻演进式的特征。对于每一个子摘要,我们都从两种角度去考量评价:一种是局部的,基于周围邻居时间结点;一种是全局的,基于全数据时间结点。 3.我们首次提出了视觉化演进式动态新闻文档摘要的概念,并提出了针对视觉化摘要和基于迭代式互相增强算法框架的解决方法。给定某个新闻主题以及相关带有时间标签的文档集,系统会生成一个带视觉信息的演进式动态新闻文档摘要,,其中分别包含文字部分以及图片部分,两个部分互为说明互为补充。每个子摘要代表着事件的发展过程,被全局信息的优化条件所约束。在这里,图片信息可以被用作提示句子摘要信息的线索,从而改变传统文本摘要的生成方式,这一点将是非常有利的。对于视觉化演进式动态新闻文档摘要的生成,我们使用了两个异质数据流,其中图片数据流在以往文档摘要的生成方法中是往往被忽略了的。此外,由于我们要同时使用两种异质数据流,我们需要通过翻译模型来建立两个语义维度的桥梁跨越语义隔阂。对于每个子摘要而言都包含有两个部分:文本部分和图片部分。对图片的选择会影响到对文本的选择,反之亦然。我们提出了一个有效的方式来保证这两部分能够很好的通过互相增强的方式匹配起来,并且通过全局-局部的约束,将各个子摘要的生成进行统一优化。 4.我们提出了两种可能整合到演进式动态新闻文档摘要中的扩展特性。第一种是引入用户个性化。因为用户有着个人的喜好,所以可能对自己喜欢阅读什么样的内容具有某种倾向性,很明显的是对于所有用户都生成一个一模一样的摘要是不够的。我们提出了一个交互式的摘要生成方法,允许用户可以使用“点击”和“查看”的方式来和摘要生成系统进行交互。人机交互的方式支持用户点击句子,并且查看该内容的来源文档,提供了实时的伪相关反馈。这种隐式的“点击日志”能反映出人们的兴趣。由于用户的点击可能比较稀疏,我们使用了“点击平滑”的方式来扩大点击数据的影响。第二种可扩展的方向是引入大众热点信息,我们使用了Twitter网社交媒体的数据来捕获这样的辅助信息。Twitter系统并不是只有一系列的帖子组成:在帖子的背后是一个潜在的用户关系网络图,包括用户之间的“粉丝”关系,和帖子之间的“转发”关系。对于大众热点信息,应该是热门的并且尽可能避免重复。我们通过一个对用户以及帖子两种异质结点进行共同排序的框架,整合信息热度和信息差异性,基于随机游走的排序框架甄选出大众热点信息。
[Abstract]:......
【学位授予单位】:北京大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 王霞;;让文档段首自动空两格[J];电脑爱好者(普及版);2007年12期
2 陈晓苏,邓凡,肖道举;协同编著系统实现中的若干问题探讨[J];华中理工大学学报;2000年04期
3 耿新,周志华,陈世福;基于混合投影函数的眼睛定位[J];软件学报;2003年08期
4 ;QAz疑室[J];少年电脑世界;2005年09期
5 王静;蒋爱德;;基于投影函数和梯度方向的快速人眼定位方法[J];科技信息(学术研究);2007年25期
6 梁静;罗年学;张瑞;李星星;;三种对流层投影函数的比较及对定位的影响[J];测绘信息与工程;2009年03期
7 陈晓苏,邓凡,肖道举;基于Web的协同编著系统的设计[J];华中理工大学学报;2000年01期
8 杜志军;王阳生;;正面人脸图像中眼睛的定位算法[J];计算机辅助设计与图形学学报;2009年06期
9 程国;丁正生;刘亚亚;;基于混合投影峰分析的人眼定位方法[J];五邑大学学报(自然科学版);2010年03期
10 向世明,赵国英,陈睿,贾富仓,李华;积厚文档扫描图像校正[J];计算机辅助设计与图形学学报;2005年01期
相关会议论文 前10条
1 高鹏飞;董洋洋;尹倩倩;;对流层投影函数改进算法研究[A];第三届中国卫星导航学术年会电子文集——S08卫星导航模型与方法[C];2012年
2 李轶;胡霞;明东;万柏坤;;一种改进的混合投影函数新算法[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年
3 陈丹雯;吴玲达;;一种基于互增强原则的视频检索重排序方法[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
4 骆金超;杨粉花;;浅谈对流层对GPS定位的影响[A];江苏省测绘学会2007'学术年会论文集[C];2008年
5 张硕;李建中;王宏志;何震瀛;;基于扩展编码的在线XML文档加载机制[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 彭菲;刘维湘;陈自强;尤江生;袁克虹;;基于内容图像搜索的医学图像数据库建立[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
7 何靖;陈
本文编号:2301878
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2301878.html