当前位置:主页 > 科技论文 > 软件论文 >

基于深度学习的多文档自动文摘研究

发布时间:2018-07-07 11:32

  本文选题:多文档自动文摘 + 玻尔兹曼机 ; 参考:《吉林大学》2017年硕士论文


【摘要】:互联网迅速发展,每天产生大量文本、图像、视频等类型的数据。其中文本数据是最常见的,用户想查询和了解自己关注的话题需要花费大量时间进行选择文章和阅读文章。自动文摘技术为我们提供了一种快速了解相关话题的方式,该技术可以快速地对文档进行总结,用户只需阅读短短十几句或几十句的总结便可以了解相关信息。用户的需求驱动使得很多类型的文摘方法应运而生,例如:基于主题模型的,基于词袋的等。这些模型初步解决了单文档文摘问题,然而多文档涉及话题较多、特征提取困难,很多模型不能得到令人满意的效果。近年来深度学习在文本处理领域取得了长足的进步,最先进的神经机器翻译模型在多种语言上超过了传统的算法模型,因此本文考虑将深度学习的方法应用到多文档自动文摘中。受限波尔兹曼机是深度学习中的经典模型,可以对数据进行编码,广泛应用在特征降维以及神经网络权重初始化中。由于文本数据特征提取困难,很多特征的作用很难理解,所以本文使用由多个受限波尔兹曼机构建的多层网络模型进行特征降维,这种多层网络结构使我们更容易的获取特征并且使特征包含的文本信息更加完整;然后使用支持向量机模型对文档中的句子进行评分,从多篇文档中抽取代表性句子并进行句子冗余控制,依次选择单位长度质量评分最高的句子生成文摘集;最后对文摘集进行排序,以文摘句在文档中的相对顺序为基准,把同话题的句子聚集到一起,使文摘集合的顺序更合理。主要流程如下:(1)关于多文档的信息表示,我们通过对自然语言处理以及文摘方法的研究,了解到文本理解一般在词-句子-文章-多个文档集合这几个层次表示文档信息。我们使用基于空间向量模型的方式表示文本,尽可能在文档的多个层次提取特征,例如:句子中词的重要性信息,句子内容信息,句子在文档中位置的重要性,句子与文章标题或者查询词的相似度等。(2)关于特征降维,我们使用一层局部特征提取层和两层受限波尔兹曼机模型组合成的多层网络结构进行特征降维,从收集到的大量特征中学习到更加抽象的特征。(3)关于文摘集生成以及文摘句排序,首先我们使用支持向量机模型获取句子评分,将评分较高的句子组合成候选文摘,然后对每个候选文摘句求单位长度文摘质量评分,依次获取评分最高的文摘句组成文摘集,我们称之为增量式的生成文摘方案,这种方法使我们的文摘结果在覆盖度和冗余度都表现良好,最后我们对文摘结果进行文摘句排序使其在逻辑上更合理,我们以遵循句子在文章中的相对顺序为基准,然后把话题类似的句子聚集到一起。
[Abstract]:The rapid development of the Internet, daily production of a large number of text, images, video and other types of data. Among them, text data is the most common. It takes a lot of time for users to select articles and read articles. Automatic summarization provides us with a way to quickly understand the relevant topics. This technology can quickly summarize the documents, and users can understand the relevant information only by reading only a dozen or dozens of summary sentences. Many kinds of abstracting methods come into being because of the user's demand driving, such as theme-based model, word bag based and so on. These models have solved the problem of single document abstracting initially, however, many documents involve more topics, feature extraction is difficult, and many models can not get satisfactory results. In recent years, deep learning has made great progress in the field of text processing. The most advanced neural machine translation model has surpassed the traditional algorithm model in many languages. In this paper, we consider applying the method of deep learning to multi-document automatic abstracting. Limited Boltzmann machine is a classical model in depth learning. It can encode data and is widely used in feature dimensionality reduction and neural network weight initialization. Because the feature extraction of text data is difficult and the function of many features is difficult to understand, this paper uses a multi-layer network model built by multiple constrained Boltzmann mechanisms to reduce the feature dimension. This multi-layer network structure makes it easier for us to get features and make the text information contained in the features more complete. Then we use the support vector machine model to evaluate the sentences in the document. The representative sentences are extracted from multiple documents and the redundant sentences are controlled, and the sentences with the highest score of unit length and quality are selected in turn to generate abstracts. Finally, the summarization sets are sorted, and the relative order of abstract sentences in the document is taken as the benchmark. Bring together sentences on the same topic to make the order of abstracts more reasonable. The main flow is as follows: (1) through the research of natural language processing and abstracting methods, we know that text understanding generally represents document information at the level of word, sentence, article and multiple document sets. We use a spatial vector model to represent the text and extract features at as many levels of the document as possible, such as the importance of the word in the sentence, the content of the sentence, the importance of the sentence's position in the document. (2) about feature dimension reduction, we use a local feature extraction layer and a two-layer constrained Boltzmann machine model to reduce the feature dimension. We learn more abstract features from a large number of features collected. (3) on the generation of abstracts and the ranking of abstract sentences, we first use support vector machine model to obtain sentence scores, and combine the higher-scoring sentences into candidate abstracts. Then for each candidate summary sentence, the unit length summarization quality score is obtained, and the summarization sentence with the highest score is obtained in turn. We call it an incremental summarization scheme. This method makes our summary results perform well in coverage and redundancy. Finally, we sort the abstract sentences to make them more logical. We follow the relative order of sentences in the article as a benchmark. Then bring together sentences similar to the topic.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期

2 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期

3 陆和健;李祝启;;网络信息自动文摘研究[J];情报科学;2008年10期

4 林莉;;自动文摘的生成方法与评价研究[J];图书馆学刊;2009年05期

5 王建波,王开铸;自然语言篇章理解及基于理解的自动文摘研究[J];中文信息学报;1992年02期

6 王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期

7 王开铸,吴岩,刘挺,张军;自动文摘设计模型[J];电脑学习;1995年05期

8 王开铸,吴岩,刘挺;基于理解的自动文摘系统设计[J];电脑学习;1996年02期

9 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期

10 胡舜耕,钟义信,魏超成;基于多Agent技术的自动文摘研究[J];计算机工程与应用;2000年09期

相关会议论文 前10条

1 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

2 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

3 耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年

4 刘海涛;老松杨;吴玲达;;基于段落自适应聚类的自动文摘系统研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

5 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

6 吕静;昝红英;;基于语义统计的中文自动文摘研究[A];第三届学生计算语言学研讨会论文集[C];2006年

7 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

8 卢冶;林鸿飞;赵晶;;中文自动文摘系统的综合评价模式[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

10 王小磊;张瑾;许洪波;;基于交互增强原理的多文档自动文摘算法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

相关重要报纸文章 前1条

1 教育部语言文字应用研究所副所长 靳光瑾 中国社会科学院语言文字应用系研究生 易江燕;话题发现技术:决策参考的“探测器”[N];中国社会科学报;2014年

相关博士学位论文 前10条

1 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年

2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年

3 胡珀;融合上下文信息的自动文摘研究[D];武汉大学;2013年

4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年

5 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年

6 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年

7 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年

8 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年

9 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年

10 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年

相关硕士学位论文 前10条

1 陈奕辰;基于句子权重和篇章结构的自动文摘算法的研究与实现[D];湖南师范大学;2015年

2 孙佩佩;面向事件的自动文摘研究[D];安徽理工大学;2016年

3 曹洋;基于TextRank算法的单文档自动文摘研究[D];南京大学;2016年

4 刘俊斐;自动文摘后处理算法的研究和实现[D];湖南师范大学;2016年

5 李方馨;基于中文微博的自动文摘研究[D];内蒙古师范大学;2016年

6 李杰;汉语句群自动划分方法及其在自动文摘中的应用[D];杭州电子科技大学;2015年

7 孙月伟;基于事件要素网络的多主题文本自动文摘方法研究[D];安徽理工大学;2017年

8 王佳松;基于深度学习的多文档自动文摘研究[D];吉林大学;2017年

9 朱荷香;中文自动文摘系统的研究与实现[D];南京师范大学;2008年

10 石子言;用户驱动的特定领域自动文摘系统设计与实现[D];东北师范大学;2009年



本文编号:2104836

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2104836.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d4df5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com