当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于半监督学习的实体集合扩展方法研究

发布时间:2017-11-21 10:31

  本文关键词:一种基于半监督学习的实体集合扩展方法研究


  更多相关文章: 实体集合扩展 包装器 语义偏转 主题模型 标签传播


【摘要】:随着互联网的发展,文档资源越来越丰富,如何从这些资源中挖掘出有效信息,成为数据挖掘的一项重要任务。为了更好的利用互联网中蕴含的资源,人们提出将这些无序信息转换为结构化信息以更方便于人们获取利用的思想。在这样的思路下,各大搜索引擎公司(如Google, Baidu等)均提出了知识图谱的概念,将实体及其信息按照类别及其之间的关系有效组织起来,以方便人们的获取利用。 本课题主要的研究内容即是知识图谱研究的基础内容:从互联网的文档资源中进行实体集合扩展。实体集合扩展是指给定某类别下若干示例作为种子,扩展得到属于该类别下的更多实体,这在语义搜索、问答系统、知识库等领域都有极其重要的应用。传统的实体集合扩展方法主要考虑实体之间的共现关系,根据它们之间的相似程度进行迭代式的扩展,但会导致语义偏转问题,准确率较差。本文针对于此,在利用包装器(Wrapper)挖掘出可能的候选实体词的基础上,提出一种先根据LDA主题模型获得种子词集合语义信息,再通过标签传播来进行实体集合扩展的方法。 本文的工作主要分为两部分:候选词的抽取和实体集合扩展算法。第一部分中主要完成的任务是利用自动构建的包装器(Wrapper)来抽取与种子词出现在相似上下文中的实体候选词。第二部分中主要完成的任务是将候选词按照文档结构组织为候选词列表,考虑词列表的上下文信息来判断是否进行扩展。本文的主要研究工作有以下五点: 1.传统根据模板进行候选词挖掘方法人力耗费较大,而直接根据分词工具得到候选实体的方式不能有效的发现新词,且两种方法都存在着召回率过低的缺陷。针对于此,本文提出了一种利用种子词的上下文信息自动学习包装器的方法,以抽取候选实体词,且保证一定程度的召回率; 2.候选实体词中存在着大量重复次数较低、与种子词相差较大的词语,影响了最终步骤的集合扩展的准确性,针对于此本文构建了包含种子词、包装器、候选词三种类型节点的混合图模型,且在其中利用随机游走算法挖掘候选词的置信度,以对候选词进行初步的筛选; 3.由于单个的实体词存在着歧义的问题,故本文在进行实体集合扩展时,将处于同一段落中的候选词作为词列表,可以假设该列表中包含的各个词语所描述主题一致,在扩展过程中将该词列表作为整体考虑,以避免单个词可能带来的歧义问题; 4.传统的实体集合扩展方法并未考虑扩展词的语义信息,导致扩展过程中大量不属于该类别的实体被加入进来。本文利用LDA模型,挖掘实体词列表的上下文对应主题,丰富实体扩展过程中的语义信息,解决传统方法的语义偏转问题。 5.为了综合考虑种子词与候选词之间的共现关系与语义关系,本文构建一个包含种子词、候选词、词列表以及词列表上下文对应的主题信息这四种节点的混合图。由于种子词数量较少,利用半监督学习中的标签传播算法,以词列表为单位进行实体集合扩展。
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13

【参考文献】

中国期刊全文数据库 前2条

1 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期

2 齐振宇;刘康;赵军;;一种融合实体语义知识的实体集合扩展方法[J];中文信息学报;2013年02期



本文编号:1210632

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1210632.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户febec***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com