零形式识别与填充方法及应用研究
发布时间:2021-04-05 20:05
零形式(Null Instantiation,NI)是指句子中隐式的语义成分,这些语义成分的正确理解将会影响篇章语义的完整性。对于机器来说,识别与实现隐式语义成分的内容填充是一个较难的任务,需要借助相应的语境,准确地理解语篇,才能有效解决该问题。汉语框架网(Chinese FrameNet,CFN)是从框架语义的角度去描述句子的语境,包含刻画句子特定语境的语义信息。本文基于汉语框架网对零形式进行识别与填充,并将其应用于框架关系判别任务。本文主要工作如下:(1)零形式识别研究。本文根据缺失的语义论元在语义理解上的不同,对零形式进行识别,分别基于传统机器学习与深度学习进行研究。在基于深度学习方法中,首先输入层包含词嵌入和框架表示,其次使用BiLSTM获取上下文信息,最后通过全连接层预测零形式类别,其中探索了基于WASBIE、Word2vec算法及基于框架关系的三种框架表示方法;在基于传统机器学习方法中,构建最优特征集,分别在决策树和随机森林算法上进行实验,得到零形式类别。结果显示,本文构建的零形式模型比baseline结果提高了2%-9%。(2)有定零形式填充研究。本文针对识别出的有定零形...
【文章来源】:山西大学山西省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
框架元
零形式识别与填充方法及应用研究8论”,它们之间的框架元素具有映射关系,<交谈.交谈者1>与<讨论.交谈者1>与<争论.争论者1>相对应。图2.1框架元素间的映射关系2.2零形式零形式(NI)指句子中隐式的、未显式表达的语义成分[1]。由于某些核心元素的缺失,使得产生了“零形式”现象[1]。按照缺失框架元素在语义理解上的不同[1],CFN将零形式分为无定零形式(用INI表示)与有定零形式(用DNI表示)。2.2.1无定零形式无定零形式(INI)指缺失的语义成分不影响人们对语篇的正确理解,不需要在上下文中为其找回特定的语篇所指[1],如:例2.1:座谈会上,[李源潮]Speaker与[基层辅导员和少先队工作者]Audience一起讨论谈论话题。[TopicINI]例2.2:中国南方有用“元宝茶”敬客的习惯,就是[在茶杯内]Goal放放置[两颗金桔]Theme,表示吉祥如意的意思。[AgentINI]例2.1中,核心框架元素“主题|Topic”未在句中出现,但并不影响人们对本句语义的正确理解;同理,例2.2中,核心框架元素“施动者|Agent”在句中也未出现,同样不会对本句的理解产生影响。这类框架元素的缺失即为无定零形式,不用在上下交谈争论讨论交谈者1交谈者1争论者1交谈者2交谈者2争论者2交谈双方争论双方交谈双方主题问题主题时量时量时量形容形容形容处所处所处所框架框架元素
第二章相关概念介绍及任务描述11图2.3语篇所涉及框架的例句数量比例统计图CFN语篇语料中的每个文本,句子及词语都给定编号。其中语义角色标注方法如图2.4所示:在给出语料中,框架名为“行动记忆”,目标词为编号为“p0_s0_24”的词,核心框架元素“time”“action”分别被编号“p0_s0_20”到“p0_s0_21”的短语及编号“p0_s0_56”到“p0_s0_27”的短语所填充,而缺失的框架元素“cog”被标记为“DNI”,且被编号为“p0_s0_8”的词语填充。图2.4CFN语义角色标注本文将零形式识别与填充任务都看作分类问题,其评价指标包括精确率P、召回率R和F值,并采用五折交叉验证方法进行实验。精确率P、召回率R、F值计算公式如2.1-2.3所示:TPPTPFP=+(2.1)TPRTPFN=+(2.2)2PRFPR=+(2.3)其中TP表示模型预测为正类的正样本,FP表示模型预测为正类的负样本,FN表示模型预测为负类的正样本。0.08590.26990.44170.14110.061300.10.20.30.40.50-2020-100100-300300-500500+框架数比例例句数量分布
【参考文献】:
期刊论文
[1]基于BERT的古文断句研究与应用[J]. 俞敬松,魏一,张永伟. 中文信息学报. 2019(11)
[2]基于词向量的Jaccard相似度算法[J]. 田星,郑瑾,张祖平. 计算机科学. 2018(07)
[3]基于汉语框架语义关系的零形式识别与消解[J]. 李茹,郭倩. 山西大学学报(自然科学版). 2018(04)
[4]基于词分布式表征的汉语框架排歧模型[J]. 张力文,王瑞波,李茹,张晟. 中文信息学报. 2017(06)
[5]汉语篇章中零形式的识别与消解[J]. 武娟,李茹,王智强. 中文信息学报. 2016(03)
[6]基于马尔可夫逻辑的中文零指代消解[J]. 宋洋,王厚峰. 计算机研究与发展. 2015(09)
[7]汉语核心框架语义分析[J]. 石佼,李茹,王智强. 中文信息学报. 2014(06)
[8]FrameNet中有定的零形式识别[J]. 雷章章,王宁,李茹,王智强. 中文信息学报. 2013(03)
[9]语言技术平台[J]. 刘挺,车万翔,李正华. 中文信息学报. 2011(06)
[10]汉语框架语义知识库及软件描述体系[J]. 郝晓燕,刘伟,李茹,刘开瑛. 中文信息学报. 2007(05)
博士论文
[1]汉语句子框架语义结构分析技术研究[D]. 李茹.山西大学 2012
硕士论文
[1]基于SVM算法的文本分类的研究[D]. 王梓诺.吉林大学 2017
[2]汉语篇章零形式识别与填充[D]. 武娟.山西大学 2016
[3]基于词元语义特征的汉语框架排歧技术研究[D]. 张立凡.山西大学 2013
本文编号:3120019
【文章来源】:山西大学山西省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
框架元
零形式识别与填充方法及应用研究8论”,它们之间的框架元素具有映射关系,<交谈.交谈者1>与<讨论.交谈者1>与<争论.争论者1>相对应。图2.1框架元素间的映射关系2.2零形式零形式(NI)指句子中隐式的、未显式表达的语义成分[1]。由于某些核心元素的缺失,使得产生了“零形式”现象[1]。按照缺失框架元素在语义理解上的不同[1],CFN将零形式分为无定零形式(用INI表示)与有定零形式(用DNI表示)。2.2.1无定零形式无定零形式(INI)指缺失的语义成分不影响人们对语篇的正确理解,不需要在上下文中为其找回特定的语篇所指[1],如:例2.1:座谈会上,[李源潮]Speaker与[基层辅导员和少先队工作者]Audience一起讨论谈论话题。[TopicINI]例2.2:中国南方有用“元宝茶”敬客的习惯,就是[在茶杯内]Goal放放置[两颗金桔]Theme,表示吉祥如意的意思。[AgentINI]例2.1中,核心框架元素“主题|Topic”未在句中出现,但并不影响人们对本句语义的正确理解;同理,例2.2中,核心框架元素“施动者|Agent”在句中也未出现,同样不会对本句的理解产生影响。这类框架元素的缺失即为无定零形式,不用在上下交谈争论讨论交谈者1交谈者1争论者1交谈者2交谈者2争论者2交谈双方争论双方交谈双方主题问题主题时量时量时量形容形容形容处所处所处所框架框架元素
第二章相关概念介绍及任务描述11图2.3语篇所涉及框架的例句数量比例统计图CFN语篇语料中的每个文本,句子及词语都给定编号。其中语义角色标注方法如图2.4所示:在给出语料中,框架名为“行动记忆”,目标词为编号为“p0_s0_24”的词,核心框架元素“time”“action”分别被编号“p0_s0_20”到“p0_s0_21”的短语及编号“p0_s0_56”到“p0_s0_27”的短语所填充,而缺失的框架元素“cog”被标记为“DNI”,且被编号为“p0_s0_8”的词语填充。图2.4CFN语义角色标注本文将零形式识别与填充任务都看作分类问题,其评价指标包括精确率P、召回率R和F值,并采用五折交叉验证方法进行实验。精确率P、召回率R、F值计算公式如2.1-2.3所示:TPPTPFP=+(2.1)TPRTPFN=+(2.2)2PRFPR=+(2.3)其中TP表示模型预测为正类的正样本,FP表示模型预测为正类的负样本,FN表示模型预测为负类的正样本。0.08590.26990.44170.14110.061300.10.20.30.40.50-2020-100100-300300-500500+框架数比例例句数量分布
【参考文献】:
期刊论文
[1]基于BERT的古文断句研究与应用[J]. 俞敬松,魏一,张永伟. 中文信息学报. 2019(11)
[2]基于词向量的Jaccard相似度算法[J]. 田星,郑瑾,张祖平. 计算机科学. 2018(07)
[3]基于汉语框架语义关系的零形式识别与消解[J]. 李茹,郭倩. 山西大学学报(自然科学版). 2018(04)
[4]基于词分布式表征的汉语框架排歧模型[J]. 张力文,王瑞波,李茹,张晟. 中文信息学报. 2017(06)
[5]汉语篇章中零形式的识别与消解[J]. 武娟,李茹,王智强. 中文信息学报. 2016(03)
[6]基于马尔可夫逻辑的中文零指代消解[J]. 宋洋,王厚峰. 计算机研究与发展. 2015(09)
[7]汉语核心框架语义分析[J]. 石佼,李茹,王智强. 中文信息学报. 2014(06)
[8]FrameNet中有定的零形式识别[J]. 雷章章,王宁,李茹,王智强. 中文信息学报. 2013(03)
[9]语言技术平台[J]. 刘挺,车万翔,李正华. 中文信息学报. 2011(06)
[10]汉语框架语义知识库及软件描述体系[J]. 郝晓燕,刘伟,李茹,刘开瑛. 中文信息学报. 2007(05)
博士论文
[1]汉语句子框架语义结构分析技术研究[D]. 李茹.山西大学 2012
硕士论文
[1]基于SVM算法的文本分类的研究[D]. 王梓诺.吉林大学 2017
[2]汉语篇章零形式识别与填充[D]. 武娟.山西大学 2016
[3]基于词元语义特征的汉语框架排歧技术研究[D]. 张立凡.山西大学 2013
本文编号:3120019
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3120019.html