命名实体与基本名词短语识别研究
发布时间:2021-12-16 22:02
命名实体识别任务是确定文档中的人名、地名和机构名等文本片段及其类型的过程,而基本名词短语识别的目的是找出篇章中非递归、无后修饰成分的名词短语。二者是文本理解的基础步骤,在很大程度上影响着指代消解等自然语言处理系统的性能。指代消解是自然语言处理的重点和难点之一,涉及机器翻译、信息提取等诸多应用,它的解决依赖于命名实体识别、词性标注等相关技术。本文在深入分析命名实体识别和基本名词短语识别现有技术的基础上,以命名实体识别和基本名词短语识别为研究对象,进行了以下几个方面的工作:首先,本文针对部分地名、机构名嵌套其他命名实体结构的特点,采用层叠条件随机域模型来进行命名实体识别。该方法利用底层模型对简单的命名实体进行初步识别,挑选其中若干个最好识别结果传递到高层条件随机域模型中,进一步对复杂地名和组织机构名进行识别,提高命名实体识别的性能。其次,本文对中文基本名词短语识别采用基于错误驱动的层次模型方法,初步提取包含上下文环境信息的原子特征并进行组合,通过实验选定有效特征,再经过训练生成两层结构的组合分类器,与单纯使用一种分类器的结果相比,层次组合策略能有效提高系统性能。最后,本文将命名实体识别和基...
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
链结构CRF无向图模型
图 2-3 多层条件随机域模型件随机域模型框架模型主要有两种方法:第一种方法是层次模型,采用递个子模型嵌入到高层模型中;第二种方法是层叠模型,型之间呈线性组合[52]。由于前者采用递归方式,其数学解码复杂度也远大于后者;而在层叠模型中,各层模型的模型间是一种松耦合关系,整个模型的复杂度与句子低层模型产生的错误可以经过适当的过滤,从而避免错层叠条件随机域模型来进行命名实体识别,具体步骤如中文文本进行原子切分,基于“字”原始序列衍生观察层 CRF 模型中,根据观察序列的取值建立针对人名地
图2-4层叠条件随机域模型流程
本文编号:3538891
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
链结构CRF无向图模型
图 2-3 多层条件随机域模型件随机域模型框架模型主要有两种方法:第一种方法是层次模型,采用递个子模型嵌入到高层模型中;第二种方法是层叠模型,型之间呈线性组合[52]。由于前者采用递归方式,其数学解码复杂度也远大于后者;而在层叠模型中,各层模型的模型间是一种松耦合关系,整个模型的复杂度与句子低层模型产生的错误可以经过适当的过滤,从而避免错层叠条件随机域模型来进行命名实体识别,具体步骤如中文文本进行原子切分,基于“字”原始序列衍生观察层 CRF 模型中,根据观察序列的取值建立针对人名地
图2-4层叠条件随机域模型流程
本文编号:3538891
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/3538891.html