当前位置:主页 > 科技论文 > 软件论文 >

多文档自动摘要方法的进展研究

发布时间:2020-02-02 15:10
【摘要】:【目的/意义】多文档自动摘要技术的目的是从一组文档中精炼出重要信息摘要,减轻用户从文档中获取与理解信息的负担,是自然语言理解领域的重要研究方向之一。【方法/过程】本文提取十五年内的多文档自动摘要研究文献并筛选出至少50篇关键影响文章,梳理多文档自动摘要的概念与研究进展,揭示了最新的技术实现与实践情况。【结果/结论】基于不同技术方法对单词、句子或段落作为主要数据处理对象,找出多文档自动摘要的技术特征与难点,明确该领域的发展趋势,为未来的研究奠定了基础。
【图文】:

自动摘要,多文档


文而被分为抽取式(Extractive)摘要和抽象式(Abstractive)摘要。抽取式摘要主要将原文档的语句进行重要性评估,再从中选取重点语句形成摘要。抽象式摘要主要从原文档中提取单词信息,然后组织单词串联语句形成摘要。图1多文档自动摘要研究框架多文档自动摘要技术的研究框架主要分成四个阶段(如图1所示),分别为数据选娶信息处理、形成摘要和摘要评估。多文档自动摘要研究首要考虑数据选取的问题,不同数据形态将影响算法的思路与评估方式,依据写作方式的不同可将目前研究的文档数据分成正式形态与非正式形态,主要区别在于语法语句的口语化程度。信息处理阶段包括预处理和提取特征信息,其主要目的是从文章中提取关键信息或单词,并且去除噪声。形成摘要阶段根据抽象式摘要和抽取式摘要分为生成语句筛选语句。生成语句通过前一阶段所获取的关键信息进行组织并生成语句,而筛选语句则根据句子特征、知识本体和句间关系从文档中选取语句。语句排序独立于二者,是有了摘要语句之后,将其按照一定的标准进行赋分,从而重新排序。最后,摘要评估阶段通过语料参照或自主评估两类方法对形成的摘要结果进行评估。本文将对研究框架的每个阶段按照如上顺序进行阐释与总结。1数据选取在选择输入数据的阶段,目前多文档自动摘要的研究主要利用特定领域的语料数据进行实证分析,数据可分成正式形态和非正式形态。正式形态文档具有完整的写作结构和正式书面用词的特性,例如学术文章和新闻稿件。非正式形态文档则主要属于交谈式、口语用语较多的会话数据,包含大量的缩写、简写等非书面用语,例如电子邮件。两类形态主要有三个区别:(1)非正式文档用语多含非书面用语,这可能对信息处理阶段的去除停用词造成影响;(2

自动摘要,多文档


文而被分为抽取式(Extractive)摘要和抽象式(Abstractive)摘要。抽取式摘要主要将原文档的语句进行重要性评估,再从中选取重点语句形成摘要。抽象式摘要主要从原文档中提取单词信息,然后组织单词串联语句形成摘要。图1多文档自动摘要研究框架多文档自动摘要技术的研究框架主要分成四个阶段(如图1所示),分别为数据选娶信息处理、形成摘要和摘要评估。多文档自动摘要研究首要考虑数据选取的问题,不同数据形态将影响算法的思路与评估方式,依据写作方式的不同可将目前研究的文档数据分成正式形态与非正式形态,主要区别在于语法语句的口语化程度。信息处理阶段包括预处理和提取特征信息,其主要目的是从文章中提取关键信息或单词,并且去除噪声。形成摘要阶段根据抽象式摘要和抽取式摘要分为生成语句筛选语句。生成语句通过前一阶段所获取的关键信息进行组织并生成语句,而筛选语句则根据句子特征、知识本体和句间关系从文档中选取语句。语句排序独立于二者,是有了摘要语句之后,将其按照一定的标准进行赋分,从而重新排序。最后,摘要评估阶段通过语料参照或自主评估两类方法对形成的摘要结果进行评估。本文将对研究框架的每个阶段按照如上顺序进行阐释与总结。1数据选取在选择输入数据的阶段,目前多文档自动摘要的研究主要利用特定领域的语料数据进行实证分析,数据可分成正式形态和非正式形态。正式形态文档具有完整的写作结构和正式书面用词的特性,例如学术文章和新闻稿件。非正式形态文档则主要属于交谈式、口语用语较多的会话数据,,包含大量的缩写、简写等非书面用语,例如电子邮件。两类形态主要有三个区别:(1)非正式文档用语多含非书面用语,这可能对信息处理阶段的去除停用词造成影响;(2

【相似文献】

相关期刊论文 前10条

1 沈洲,王永成,许一震,吴芳芳;一种面向新闻文献的自动摘要系统的研究与实践[J];计算机工程;2000年09期

2 李爱红;试论自动摘要技术[J];图书情报工作;2000年04期

3 沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期

4 王彩霞;试论自动摘要技术[J];晋图学刊;2003年02期

5 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期

6 王建会;周水庚;胡运发;;基于聚类的自动摘要[J];模式识别与人工智能;2004年03期

7 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期

8 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期

9 李念峰;;基于自动摘要的网络情报收集系统研究[J];现代情报;2007年11期

10 郭琳虹;张小松;;文本自动摘要的方法研究[J];福建电脑;2008年06期

相关会议论文 前8条

1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 吴中勤;黄萱菁;吴立德;;基于有监督分类技术的文本自动摘要研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年

4 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

5 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

6 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年

7 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

8 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年

相关博士学位论文 前2条

1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年

相关硕士学位论文 前10条

1 王馨;网络新闻热点发现研究[D];河北大学;2015年

2 李子健;专题摘要自动生成技术研究[D];浙江大学;2015年

3 熊娇;基于词项—句子—文档三层图模型的多文档自动摘要[D];江西师范大学;2015年

4 程园;舆情分析中维吾尔文文本自动摘要研究[D];新疆大学;2015年

5 梁入文;基于文本意见挖掘的烟台大学教学评价系统设计与实现[D];电子科技大学;2015年

6 杨瑞;在线网络中文本自动摘要系统研究和实现[D];南京航空航天大学;2014年

7 唐亚娟;基于文本挖掘的粮食情报分析技术与系统实现[D];河南工业大学;2015年

8 张占江;基于短语主题模型和多文档自动摘要技术的文献综述内容推荐[D];浙江大学;2016年

9 董非;基于图的主观性多文本自动摘要方法研究和实现[D];上海交通大学;2015年

10 程娟;中文文档自动摘要技术[D];山东大学;2006年



本文编号:2575732

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2575732.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户56a73***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com