基于对抗学习的跨领域关键词提取方法研究

发布时间:2021-07-11 00:11
  在如今数据爆炸的时代,数据、信息与知识等概念已经关系到每个人与各个行业。但是现有经验告诉我们,任何形式的原始数据只能传达出很少的信息,除非使用一些智能的方法处理数据。对于最常见的文本数据而言,知道文本中最重要的关键词/短语可以提供浓缩的概念表示从而简化文档处理。文章的关键词对文章内容提供了高层次的描述,它总结了关键的主题,概念,想法或者文章的推断。这些描述性的关键短语使得其他相关算法可以快速有效地提取相关内容。因此关键词在很多文档处理领域扮演重要角色比如文档索引、分类、聚类还有摘要任务。然而,大多数文档缺乏作者提供的关键词并且人为地给大量文本标注关键词并不可行,这是因为手动地为大规模文档决定重要短语的集合是繁杂的,代价巨大的而且需要额外的专家知识。幸运的是,自然语言处理技术可以帮助从文档中自动提取关键词。目前,大多数关键词提取的方法主要依赖于手工选择的特征,比如关键词出现的频率和相对位置。这导致了相关方法依赖特定领域数据,在面对其他领域不同长度、不同语义模式和不同规则的文档时,它们通常需要做出针对性的修改,这也使得自动关键词提取方法的发展变得耗费时间和人力。在这些方法中,有监督的关键词... 

【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

基于对抗学习的跨领域关键词提取方法研究


图1.2?—篇文档和对应的关键词??

实例图,关键词,短语,序列


或多个??关键短语,而关键短语可以由一个或多个单词组成。??然后,关键词提取问题被形式化定义成一个序列标注任务[18]。给定一个文??档的词序列表示为x?=?(m2,...,:r?),序列标注旨在预测文档输入x的标签序列??y?=(仍,j/2,?...,糾)。对于文本序列中的第i个词而,它的标签讲e?{S,?s,?Af,尽〇}??分别对应表示这个词属于单个词组成的关键短语,所组成的关键短语的开始,所??组成的关键短语的中间部分,所组成的关键短语的结尾以及不属于任何一个关??键短语。图3.1展示了一个用序列标注方法进行关键词提取的例子。其中test??Label?Sequence:?O?B?E;?O?0?0??Text?Sequence:?effectivejtest?generation?and?adequacy?assessment??Label?Sequence:?O?丨、缓O?O?0?...??Text?Sequence:?for择vascrj誦?based?web?applications?...??图3.1使用序列标注方法进行关键词提取的一个实例。??27??

框架图,主题,神经网络,框架


?第3章基于主题的对抗神经网络方法????,扣享的基于主题的编码器???、??源=标签|?,?(S蠢,| ̄4有监督损失函数??>?^s??■-??3產二?i?^抗损失函数:??目标领域无标:__I;? ̄f标领域基??签数据?:?\±?6<j*srj???—?{■{重建损失函数]??分布^—??图3.2基于主题的对抗神经网络框架。??generation是该文本序列的一个关键短语,其对应的标签序列是BE,另外一个??关键短语是由单个词javascript组成,对应的标签序列是S。因此,基于以上描??述的序列标注方法,我们可以对给定的文本得到相应的标签序列,进而由标签序??列确定最终的关键短语。??3.3基于主题的对抗神经网络方法??针对3.2节提出的问题,本文提出了基于主题的对抗神经网络方法TANN??(Topic-based?Adversarial?Neural?Network)。本小节首先介绍?TANN?的整体框架然??后详细介绍TANN框架的各个组成部分。3.3.1节介绍TANN中的基于主题的编??码器,3.3.2节介绍TANN中的领域判别器组成部分,3.3.3节介绍TANN中的目??标领域双向解码器模块,关键词标注器则在3_3_4节介绍。最后3.3.5介绍整个模型??的训练算法。针对跨领域关键词提取问题中目标领域无有标签样本的问题,本文??提出了基于主题的对抗神经网络TANN框架。图3.2对该框架进行了展示,从图??中可以看出TANN框架主要包括:???基于主题的编码器:对输人的文本序列进行编码并在编码表示中引人文档??的主题信息。???领域判别器:区分学习到的表示是


本文编号:3276930

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3276930.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户93ad7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com