文档融合关键技术研究

发布时间:2019-02-27 19:13
【摘要】:文档融合是组织文本及整合信息的关键技术,也是自然语言生成的重要基础。该技术旨在整合跨多个文档的重要信息,生成简洁流畅的摘要,不同于传统意义上的文摘生成任务,该摘要既要覆盖主题文档集合中的共同信息,也要体现重要的差异性信息,它不仅仅是关键内容的提炼,更强调相关内容的整合。其中,如何获取文档集合中主题概念及这些主题概念所延伸出的主题发展,将整个集合中的关键信息按一定逻辑有条理的排序,基于不同的主题内容对篇章或语句进行聚类组织等都是重要的研究课题。本文主要从三个方面探索文档融合任务涉及的关键技术,具体内容如下:1.文档融合任务整合同一事件或对象的相关信息,以新闻事件为例,不同新闻报道所描述的同一新闻事件,基于不同视角所呈现的信息不同,后续报道中还会出现伴随事件发展而产生的新的相关信息。为有效去除冗余信息,获得主题及主题相关信息,本文提出一个基于模糊多重集理论的对象合并框架,基于合并函数将文档集对应的多重集以及单篇文档中概念对应的模糊多重集合进行合并操作,然后利用有效性评价函数评价并优化合并函数,从而获得关键概念及其相关词。2.文档融合需要逻辑通顺的内容排布,以句子为处理“粒度”,在文档集合中抽取出蕴含关键概念及发展线索的语句,利用排序融合技术对这些句子进行排序,形成逻辑通顺、可读性强的新的篇章结构。本文提出利用主题句子聚类以及图模型对待排序语句进行组合及建模,将语句排序问题转化为连续型Hopfield神经网络所擅长的路径优化问题,在主题簇对应的图中节点间寻找到一条最短路径,最后将路径输出顺序作为最优的排序方案。3.文档融合需要解决基本的主题内容划分问题,由于缺乏领域背景知识,对于特定事件或特定领域的主题聚类仍然存在困难,体现在这类聚类问题中难以有效提取相关特征。本文提出基于领域本体获取领域知识从而指导特征选择,利用向量空间模型对这些特征进行表示,通过矩阵变换得到模糊等价关系矩阵实现聚类。该方法是一种无监督的方法,不需要预先对数据进行人工标注,无需训练过程,因此在组织特殊领域文档时具有较高的灵活性和自动化处理的能力。
[Abstract]:Document fusion is the key technology of organizing text and integrating information, and it is also the important foundation of natural language generation. The purpose of this technique is to integrate important information across multiple documents to generate concise and smooth abstracts. Unlike the traditional task of generating abstracts, the abstract not only covers the common information in the collection of subject documents, but also embodies the important difference information. It is not only the extraction of key content, but also the integration of related content. Among them, how to get the topic concept in the document collection and the topic development that these topic concept extends, and arrange the key information in the whole set according to certain logical and organized order. It is an important research topic to cluster and organize text or sentence based on different topic content. This paper mainly explores the key technologies involved in the document fusion task from three aspects, the details of which are as follows: 1. The document fusion task integrates the relevant information of the same event or object. Taking the news event as an example, different news reports describe the same news event, and based on different perspectives, the information presented is different. Follow-up reports will also appear with the development of events with the emergence of new relevant information. In order to effectively remove redundant information and obtain topic and related information, this paper proposes an object merging framework based on fuzzy multi-set theory. Based on the merging function, the multiple sets corresponding to the document set and the fuzzy multiple sets corresponding to the concepts in a single document are combined, and then the merging function is evaluated and optimized by using the effectiveness evaluation function. In order to obtain the key concepts and related words. 2. Document fusion needs logical content arrangement, taking sentences as processing "granularity", extracting sentences containing key concepts and development clues from the document collection, sorting these sentences by sorting fusion technology to form logical smooth, and making use of sorting and fusion technology to sort these sentences to form logical fluency, which contains the key concepts and development clues in the document collection. A new text structure with strong readability. In this paper, the topic sentence clustering and graph model are used to combine and model the sorting sentences, and the problem of sentence sequencing is transformed into the path optimization problem of continuous Hopfield neural network. A shortest path is found among the nodes in the graph corresponding to the topic cluster. Finally, the output sequence of the path is used as the optimal sorting scheme. Document fusion needs to solve the basic problem of subject content partition. Due to the lack of domain background knowledge, there are still difficulties in topic clustering for specific events or specific domains, and it is difficult to extract relevant features effectively in this kind of clustering problem. In this paper, domain knowledge acquisition based on domain ontology is proposed to guide feature selection. These features are represented by vector space model, and fuzzy equivalence relation matrix is obtained by matrix transformation to realize clustering. This method is an unsupervised method, does not need to label data manually in advance, does not need training process, so it has high flexibility and automatic processing ability in organizing documents in special fields.
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 何尧;张顺淼;;利用未标识文档提高中心分类法性能的研究[J];电脑知识与技术(学术交流);2007年16期

2 付剑波;王明文;罗远胜;张华伟;;基于团模型的文档重排算法研究[J];中文信息学报;2009年01期

3 陈钒;冯志勇;李晓红;赵庚;;基于语言节奏的大规模文档去重算法研究[J];计算机工程与应用;2011年11期

4 颜学雄;王清贤;;基于属性的内部文档访问控制[J];计算机工程与设计;2009年05期

5 罗三定,冯元勇,沈德耀,贾维嘉;基于概念的文档评价模型[J];计算机工程;2002年08期

6 毛存礼;余正涛;吴则建;郭剑毅;线岩团;;专家证据文档识别无向图模型[J];软件学报;2013年11期

7 马维亚;基于PDF文档的网络学习资源建设[J];长春理工大学学报;2004年04期

8 许继红;;浅谈基于PDF文档的网络学习资源建设[J];天津职业院校联合学报;2006年05期

9 安亮;;PDF文档的网络学习资源建设[J];科教文汇(下半月);2006年04期

10 郑瑞银;史晓红;胡文伟;;谈基于PDF文档的网络学习资源建设[J];科技广场;2007年09期

相关会议论文 前9条

1 李立;何婷婷;瞿国忠;张勇;;基于文档扩展的中文信息检索系统[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

2 曹慧;;一种xml文档相似性距离的计算方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年

3 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 温俊;阳国贵;;XML文档集公共模式获取技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

5 张刚;王斌;程学旗;;基于链接的分布式信息检索文档划分研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

6 梁红;李伟生;;XML文档的并行聚类算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

7 杨洁;季铎;蔡东风;白宇;;基于联合权重的多文档关键词抽取技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

8 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

9 贾候萍;万小军;黄小江;杨建武;肖建国;;多文档摘要系统中句子排序研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

相关重要报纸文章 前2条

1 ;中国软件首个国际联盟标准UOML诞生[N];网络世界;2008年

2 Linux逍遥客;用好OpenOffice的细小功能[N];电脑报;2004年

相关博士学位论文 前4条

1 岳琳;文档融合关键技术研究[D];吉林大学;2016年

2 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年

3 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年

4 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年

相关硕士学位论文 前10条

1 岳大鹏;基于话题的多文档文摘技术研究[D];国防科学技术大学;2011年

2 李延龙;基于查询网络的文档推荐策略研究[D];东北大学;2011年

3 李旭;基于串匹配方法的文档复制检测系统研究[D];燕山大学;2006年

4 张志涛;基于参考文档的信息检索模型的研究[D];哈尔滨工业大学;2010年

5 管冬根;Web文档中信息的获取与表示研究[D];重庆大学;2003年

6 周丹;基于子主题的多文档摘要关键技术研究[D];北京邮电大学;2008年

7 衡伟;面向多文档摘要的主题建模方法研究[D];北京邮电大学;2014年

8 姚超;中文多文档文摘关键技术研究[D];哈尔滨工业大学;2007年

9 李大任;基于参考文档模型的个性化Web检索研究[D];哈尔滨工业大学;2011年

10 娄振霞;基于云模型理论的文档重排方法研究[D];华中师范大学;2012年



本文编号:2431505

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2431505.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6b7e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com