基于知识扩展与表示学习的隐式篇章关系识别方法研究
发布时间:2021-10-10 23:51
篇章关系识别旨在研究篇章内部论述单元(简称为“论元”)的语义逻辑关系,是自然语言处理领域中的一项重要研究任务。宾州篇章树库语料库是篇章关系识别领域的权威数据集,它根据论元间是否有连接词,将篇章关系任务区分为显式篇章关系和隐式篇章关系识别任务。目前,显式篇章关系识别性能已达90%以上,而隐式篇章关系由于缺乏连接词等线索,性能仍然较低。本文针对隐式篇章关系,提出一种基于知识扩展与表示学习的隐式篇章关系识别方法。主要研究内容包括以下三个方面:(1)基于主动学习的隐式篇章语料扩充方法现有篇章关系识别存在语言学资源规模有限、现有神经网络模型依赖大量的训练样本等问题,导致模型对样本较少的关系类别的分类能力较差。因此通过增加训练语料来提升分类性能是一个有效的方法。针对篇章数据扩展问题,前人研究通过连接词模板匹配大量外部语料,将匹配到的显式数据去掉连接词,形成伪的隐式篇章样本。由于去掉连接词的样本带来一定的语义改变,并且外部数据存在噪音等问题,将这类伪数据直接加入训练集,反而导致性能有所下降。针对以上问题,本文使用主动学习方法筛选训练数据,选择信息量高且低噪音的样本加入训练集,从而提升模型的分类能力。...
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
图3-1高信息样本样例??
第三章基于主动学习的隐式篇章语料扩充方法?基于知识扩展与表示学习的隐式篇章关系识別方法研宄???基于分类结果,根据查询函数2,筛选出其中的高信息量样本送给专家^标注;???将标注好的样本加入现有训练样本中,继续训练分类模型。??主动学习是一个迭代过程,直到满足预先设定的条件,如达到预设定好的迭代??次数或者当性能变化很小时,则停止该过程。具体的流程见图3-2。??Model?Model?^??Training?—?Classification?Training?—?Classification??I?\?I?\??c:—^??Labeled?Unlabeled?Labeled?imp?Exp?Unlabeled??、、Data?一J?^—?Data?J??Data??L—?Data??\?i.?\?上?i??Expansion???Adoption?Expansion?w?Adoption??k?ifiBi?^?^?^???Experts?^?Exp2lmp??General?AL?workflow?Cooperating?AL?with?Exp2lmp??图3-2主动学习的流程图??3.2.4融合主动学习的显式-隐式语料转换方法??本小节主要介绍结合AL与显式-隐式数据转换(Exp2Imp)方法。具体的工作流??程见图3-2。其中,标注数据集是指现有的隐式篇章关系数据集,未标注数据集则是??移除连接词的显式篇章关系数据集。在主动学习的每次迭代中,基于现有的标注数??据训练分类器,使用这个分类器对显式篇章数据进行预测。在此基础上,我们需要??对每条未标注数进行信息量
?Macro-/7!??10(2015)?57.10?40.50??MNN?(2016)?I?57.27?44.98??MTN(2016)?-?42.50??DSWE?(2017)?I?58.85?44.84??MANN(2017)?I?57.39?47.80?? ̄?Ours?|?60.63? ̄?44.48??下,本章方法仅使用显式篇章数据,分类模型也是基于基础的CNN模型。因此对于??其他方法,本方法的性能仍具有可比性。??(2)阈值对忡能的影响??图3-3和图3-4分别展示了阈值对Accuracy和Macro-F丨的影响。阈值6>若设定为0.8,??则会选择过多的样本加入训练集,这些样本中会包含更多模型己能判定的样本,带??来一定的过拟合问题,同时会引入更多的噪声数据,最终导致性能较低。而阈值选??择过高时,选择的样本数减少,模型无法学习到分类边界样本的更多特征,从而影??响模型对这类样本的泛化能力。??Accuracy?Macro-Fi??61?.?45??^?56?5^69?I?41???^?■??^?-?40?79?40?98??54?39??53?38??0.8?0.8?5?0.9?0.95?0.99?0.X?0.85?0.9?0.95?0.99??阈值??阈值0??图3-3阈值对Accuracy的影响?图3-4阈值对Macn??-?F|的影响??(2)信息量样本分析??根据以上实验结果分析可知,基于主动学习的隐式篇章语料扩充方法能够提升??模型分类性能。本小节结合实例,对高信息样本及非高信息样本进行分析,从样本??的角度分析为何
【参考文献】:
期刊论文
[1]汉语篇章理解研究综述[J]. 孔芳,王红玲,周国栋. 软件学报. 2019(07)
[2]基于宏观语义表示的宏观篇章关系识别方法[J]. 周懿,褚晓敏,朱巧明,蒋峰,李培峰. 中文信息学报. 2019(03)
[3]基于转移的中文篇章结构解析研究[J]. 孙成,孔芳. 中文信息学报. 2018(12)
本文编号:3429387
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
图3-1高信息样本样例??
第三章基于主动学习的隐式篇章语料扩充方法?基于知识扩展与表示学习的隐式篇章关系识別方法研宄???基于分类结果,根据查询函数2,筛选出其中的高信息量样本送给专家^标注;???将标注好的样本加入现有训练样本中,继续训练分类模型。??主动学习是一个迭代过程,直到满足预先设定的条件,如达到预设定好的迭代??次数或者当性能变化很小时,则停止该过程。具体的流程见图3-2。??Model?Model?^??Training?—?Classification?Training?—?Classification??I?\?I?\??c:—^??Labeled?Unlabeled?Labeled?imp?Exp?Unlabeled??、、Data?一J?^—?Data?J??Data??L—?Data??\?i.?\?上?i??Expansion???Adoption?Expansion?w?Adoption??k?ifiBi?^?^?^???Experts?^?Exp2lmp??General?AL?workflow?Cooperating?AL?with?Exp2lmp??图3-2主动学习的流程图??3.2.4融合主动学习的显式-隐式语料转换方法??本小节主要介绍结合AL与显式-隐式数据转换(Exp2Imp)方法。具体的工作流??程见图3-2。其中,标注数据集是指现有的隐式篇章关系数据集,未标注数据集则是??移除连接词的显式篇章关系数据集。在主动学习的每次迭代中,基于现有的标注数??据训练分类器,使用这个分类器对显式篇章数据进行预测。在此基础上,我们需要??对每条未标注数进行信息量
?Macro-/7!??10(2015)?57.10?40.50??MNN?(2016)?I?57.27?44.98??MTN(2016)?-?42.50??DSWE?(2017)?I?58.85?44.84??MANN(2017)?I?57.39?47.80?? ̄?Ours?|?60.63? ̄?44.48??下,本章方法仅使用显式篇章数据,分类模型也是基于基础的CNN模型。因此对于??其他方法,本方法的性能仍具有可比性。??(2)阈值对忡能的影响??图3-3和图3-4分别展示了阈值对Accuracy和Macro-F丨的影响。阈值6>若设定为0.8,??则会选择过多的样本加入训练集,这些样本中会包含更多模型己能判定的样本,带??来一定的过拟合问题,同时会引入更多的噪声数据,最终导致性能较低。而阈值选??择过高时,选择的样本数减少,模型无法学习到分类边界样本的更多特征,从而影??响模型对这类样本的泛化能力。??Accuracy?Macro-Fi??61?.?45??^?56?5^69?I?41???^?■??^?-?40?79?40?98??54?39??53?38??0.8?0.8?5?0.9?0.95?0.99?0.X?0.85?0.9?0.95?0.99??阈值??阈值0??图3-3阈值对Accuracy的影响?图3-4阈值对Macn??-?F|的影响??(2)信息量样本分析??根据以上实验结果分析可知,基于主动学习的隐式篇章语料扩充方法能够提升??模型分类性能。本小节结合实例,对高信息样本及非高信息样本进行分析,从样本??的角度分析为何
【参考文献】:
期刊论文
[1]汉语篇章理解研究综述[J]. 孔芳,王红玲,周国栋. 软件学报. 2019(07)
[2]基于宏观语义表示的宏观篇章关系识别方法[J]. 周懿,褚晓敏,朱巧明,蒋峰,李培峰. 中文信息学报. 2019(03)
[3]基于转移的中文篇章结构解析研究[J]. 孙成,孔芳. 中文信息学报. 2018(12)
本文编号:3429387
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3429387.html
最近更新
教材专著