文档融合关键技术研究
[Abstract]:Document fusion is the key technology of organizing text and integrating information, and it is also the important foundation of natural language generation. The purpose of this technique is to integrate important information across multiple documents to generate concise and smooth abstracts. Unlike the traditional task of generating abstracts, the abstract not only covers the common information in the collection of subject documents, but also embodies the important difference information. It is not only the extraction of key content, but also the integration of related content. Among them, how to get the topic concept in the document collection and the topic development that these topic concept extends, and arrange the key information in the whole set according to certain logical and organized order. It is an important research topic to cluster and organize text or sentence based on different topic content. This paper mainly explores the key technologies involved in the document fusion task from three aspects, the details of which are as follows: 1. The document fusion task integrates the relevant information of the same event or object. Taking the news event as an example, different news reports describe the same news event, and based on different perspectives, the information presented is different. Follow-up reports will also appear with the development of events with the emergence of new relevant information. In order to effectively remove redundant information and obtain topic and related information, this paper proposes an object merging framework based on fuzzy multi-set theory. Based on the merging function, the multiple sets corresponding to the document set and the fuzzy multiple sets corresponding to the concepts in a single document are combined, and then the merging function is evaluated and optimized by using the effectiveness evaluation function. In order to obtain the key concepts and related words. 2. Document fusion needs logical content arrangement, taking sentences as processing "granularity", extracting sentences containing key concepts and development clues from the document collection, sorting these sentences by sorting fusion technology to form logical smooth, and making use of sorting and fusion technology to sort these sentences to form logical fluency, which contains the key concepts and development clues in the document collection. A new text structure with strong readability. In this paper, the topic sentence clustering and graph model are used to combine and model the sorting sentences, and the problem of sentence sequencing is transformed into the path optimization problem of continuous Hopfield neural network. A shortest path is found among the nodes in the graph corresponding to the topic cluster. Finally, the output sequence of the path is used as the optimal sorting scheme. Document fusion needs to solve the basic problem of subject content partition. Due to the lack of domain background knowledge, there are still difficulties in topic clustering for specific events or specific domains, and it is difficult to extract relevant features effectively in this kind of clustering problem. In this paper, domain knowledge acquisition based on domain ontology is proposed to guide feature selection. These features are represented by vector space model, and fuzzy equivalence relation matrix is obtained by matrix transformation to realize clustering. This method is an unsupervised method, does not need to label data manually in advance, does not need training process, so it has high flexibility and automatic processing ability in organizing documents in special fields.
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 何尧;张顺淼;;利用未标识文档提高中心分类法性能的研究[J];电脑知识与技术(学术交流);2007年16期
2 付剑波;王明文;罗远胜;张华伟;;基于团模型的文档重排算法研究[J];中文信息学报;2009年01期
3 陈钒;冯志勇;李晓红;赵庚;;基于语言节奏的大规模文档去重算法研究[J];计算机工程与应用;2011年11期
4 颜学雄;王清贤;;基于属性的内部文档访问控制[J];计算机工程与设计;2009年05期
5 罗三定,冯元勇,沈德耀,贾维嘉;基于概念的文档评价模型[J];计算机工程;2002年08期
6 毛存礼;余正涛;吴则建;郭剑毅;线岩团;;专家证据文档识别无向图模型[J];软件学报;2013年11期
7 马维亚;基于PDF文档的网络学习资源建设[J];长春理工大学学报;2004年04期
8 许继红;;浅谈基于PDF文档的网络学习资源建设[J];天津职业院校联合学报;2006年05期
9 安亮;;PDF文档的网络学习资源建设[J];科教文汇(下半月);2006年04期
10 郑瑞银;史晓红;胡文伟;;谈基于PDF文档的网络学习资源建设[J];科技广场;2007年09期
相关会议论文 前9条
1 李立;何婷婷;瞿国忠;张勇;;基于文档扩展的中文信息检索系统[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 曹慧;;一种xml文档相似性距离的计算方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
3 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 温俊;阳国贵;;XML文档集公共模式获取技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 张刚;王斌;程学旗;;基于链接的分布式信息检索文档划分研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 梁红;李伟生;;XML文档的并行聚类算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 杨洁;季铎;蔡东风;白宇;;基于联合权重的多文档关键词抽取技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 贾候萍;万小军;黄小江;杨建武;肖建国;;多文档摘要系统中句子排序研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
相关重要报纸文章 前2条
1 ;中国软件首个国际联盟标准UOML诞生[N];网络世界;2008年
2 Linux逍遥客;用好OpenOffice的细小功能[N];电脑报;2004年
相关博士学位论文 前4条
1 岳琳;文档融合关键技术研究[D];吉林大学;2016年
2 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
3 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
4 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
相关硕士学位论文 前10条
1 岳大鹏;基于话题的多文档文摘技术研究[D];国防科学技术大学;2011年
2 李延龙;基于查询网络的文档推荐策略研究[D];东北大学;2011年
3 李旭;基于串匹配方法的文档复制检测系统研究[D];燕山大学;2006年
4 张志涛;基于参考文档的信息检索模型的研究[D];哈尔滨工业大学;2010年
5 管冬根;Web文档中信息的获取与表示研究[D];重庆大学;2003年
6 周丹;基于子主题的多文档摘要关键技术研究[D];北京邮电大学;2008年
7 衡伟;面向多文档摘要的主题建模方法研究[D];北京邮电大学;2014年
8 姚超;中文多文档文摘关键技术研究[D];哈尔滨工业大学;2007年
9 李大任;基于参考文档模型的个性化Web检索研究[D];哈尔滨工业大学;2011年
10 娄振霞;基于云模型理论的文档重排方法研究[D];华中师范大学;2012年
,本文编号:2431505
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2431505.html