当前位置:主页 > 科技论文 > 自动化论文 >

汉语表述识别与指代消解

发布时间:2021-01-15 08:15
  使用传统的机器学习方法构建汉语指代消解基准平台,当引入表述识别二次分类器后,基准平台的性能并没有获得提升。针对该问题,提出一种改进的表述识别方法。改进的表述识别方法只针对代词、专有名词进行分类过滤,而对所有的普通名词短语予以保留。实验结果表明,与传统基于规则的表述识别方法相比,改进方法可以有效提升全自动的汉语指代消解性能。 

【文章来源】:计算机工程. 2016,42(09)北大核心

【文章页数】:6 页

【部分图文】:

汉语表述识别与指代消解


基于机器学习方法的汉语指代消解平台预处理系统主要包括分句、分词、词性标注、句所包含

指代,词性标注,机器学习,预处理系统


计算机工程2016年9月15日4基于机器学习的汉语指代消解基准平台本节在浏览了基准平台的构成后,给出了其在CoNLL-2012SharedTask[21]汉语语料上使用官方评测工具得到的结果,并对结果进行了分析。4.1基准平台的基本构成与目前大多数指代消解研究类似,本文使用Soon等提出的基于机器学习的指代消解平台作为实验的基准系统,它的基本构成如图1所示。图1基于机器学习方法的汉语指代消解平台预处理系统主要包括分句、分词、词性标注、句法分析、表述提娶命名实体识别和语义信息获取等。为了后续公平地与其他系统进行比较,本文使用CoNLL-2012SharedTask提供的自动分句、分词、词性标注、句法分析、命名实体识别和语义类别等预处理信息。至于表述的提取,这是本文研究的重点。在基准系统中,借助规则生成了一个表述提取器。首先在自动句法树上提取所有的NP,QP和POS为PN和NR的终端结点,形成一个表述候选集。接着从候选集中去除量词,去除类别为PERCENT,MONEY,QUANTITY和CARDINAL的命名实体;最后从候选集中去除诸如“什么”,“哪儿”之类的疑问代词。这样就得到了一个高召回率、低准确率的自动表述集合。在机器学习方法中,特征选择是影响系统最终性能的关键要素之一。本文在选择使用特征时,遵循以下的标准:特征的属性具有非常普遍的代表性,并且它们之间没有任何的重叠或者矛盾,每一个属性概念都很明确清晰,不存在二义性。本文系统在特征向量的选择上使用了Soon等使用的特征。限于篇幅,特征集请参见相关论文。在基准系统的构建过程中,另一个核心环节就是样例的生成。在训练时,对于每一个表述,先确定该表述是否存在于训练语料的某个指代链中。如果该表述没有被某个指代链所包含,那么被认为非待消解项,

【参考文献】:
期刊论文
[1]篇章中指代消解研究综述[J]. 周炫余,刘娟,卢笑.  武汉大学学报(理学版). 2014(01)
[2]中英文指代消解中待消解项识别的研究[J]. 孔芳,朱巧明,周国栋.  计算机研究与发展. 2012(05)
[3]基于树核函数的中英文代词消解[J]. 孔芳,周国栋.  软件学报. 2012(05)
[4]指代消解综述[J]. 孔芳,周国栋,朱巧明,钱培德.  计算机工程. 2010(08)
[5]基于中心理论的指代消解研究[J]. 孔芳,朱巧明,周国栋,钱培德.  计算机科学. 2009(06)
[6]句法与词义相结合的中文代词消解[J]. 宋巍,秦兵,郎君,刘挺.  中文信息学报. 2008(06)

博士论文
[1]指代消解关键问题研究[D]. 孔芳.苏州大学 2009



本文编号:2978566

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2978566.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户852c6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com