汉语依存句法分析树库构建与应用研究
发布时间:2021-01-06 11:51
随着深度学习的发展,依存句法分析的性能取得了非常显著的提升。然而,利用已有树库训练的模型进行不规范网络文本依存句法分析时,准确率急剧下降。其主要原因是,已有树库资源大多面向规范的新闻语料构建,而针对网络文本的树库资源较少。因此,本文面向多领域多来源汉语文本(尤其是网络文本),制定了一个依存句法数据标注规范,进行了大规模依存句法树库构建,并尝试将依存句法信息应用到句子压缩任务中。本文的主要研究内容如下:(1)汉语依存句法数据标注规范的制定由于目前还没有一个公开、完整、系统的汉语依存句法数据标注规范,并且已有的树库标注工作对网络文本中的特殊语言现象考虑较少。本文充分参考了已有的数据标注工作和诸多语言学著作,制定了一个适应多领域多来源文本的汉语依存句法数据标注规范(目前版本约70页)。另外,为保证标注一致性,本文结合实际标注中遇到的问题进行分析,给出了明确的优先级策略。我们将该规范作为树库构建工作的理论基础。(2)基于主动学习的汉语依存句法树库构建基于制定的标注规范及可视化在线标注系统,开展了大规模数据标注。首先,利用主动学习方法进行数据选取;其次,使用可视化系统进行程序化标注和质量控制;最...
【文章来源】:苏州大学江苏省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图2-3句子压缩示例??
第二章任务及方法介绍?汉语依存句法分析树库构建与应用研宄??不同的输出通道去测试各自领域的数据。??Training?Testing??Multi-view?model?0utputA?0utput?B??t?“???^?Train?multi-view?^???model?-?Multi-view?model?—^??Corpus?A?Corpus?B?Raw??-??L??J?sentence??图2-6?mtl机制??本文将MTL机制加入到之前第2.2节介绍的BiLSTM-CRF模型中,用于汉语句??子压缩任务中。在训练和测试中,输入部分和单任务一样共享同样的参数向量表示,??然后根据共享参数分别输入到不同的语料类型(A和B)对应的MLP计算得分,以??及利用各自私有的CRF层进行结构化预测,具体内容见第5.5节中的详细介绍。??2.5本章小结??本章详细地介绍了本文研宄中相关任务的描述和定义,包括依存句法分析、局部??标注以及句子压缩;另外对文中所涉及到的机器学习方法的介绍,包括双向长短期记??忆网络-条件随机场模型(BiLSTM-CRF)、基于图的双仿射神经网络依存句法分析模??型(Biaffine?Parser)、多任务学习方法(MTL)。BiLSTM-CRF模型由于能有效地解决??序列中记忆信息丢失问题,是Biaffme?Parser模型以及MTL模型的重要组成部分。在??第四章汉语依存句法树库的构建工作中,将Biaffine?Parser模型用于数据选取的置信??度判定,并对依存句法标注数据进行仿真实验和分析。将BiLSTM-CRF模型和MTL??模型用于第五章的句子压
的??词语的并列,并列词语可以是动词、名词、形容词等。似迎过标注实践发现,很多句??子屮并列谓语之间的句法关系不尽相同,这两个依存关系类型并不能非常准确地表??示并列谓语之间更深层次的关系,而且其界限非常难掌握。因此,在我们的规范中,??为了更加深入而又准确地表示句子内部谓语之间的句法关系,通过判定句子中的多??个谓语是否对句子中的主语和宾语进行共享,我们细分出了三种不同的依存关系类??型,包括同主语(sasubj)、同主语同宾语(sasubj-obj)与不同主语(dfsubj),如图3-1所??示,“建立”和“改进”是同主语关系,“建立”和“健全”是同主语同宾语关系,“建??立”和“提高”是不同主语关系。??¥工厂建立健全责仟制,改进技术,员I:才能提高效申.。??图3-1?sasubj-obj、sasubj、dfsubj依存关系类型示例??17??
【参考文献】:
期刊论文
[1]适应多领域多来源文本的汉语依存句法数据标注规范[J]. 郭丽娟,李正华,彭雪,张民. 中文信息学报. 2018(10)
[2]多领域中文依存树库构建与影响统计句法分析因素之分析[J]. 邱立坤,史林林,王厚峰. 中文信息学报. 2015(05)
[3]Hedge Trimmer句子压缩技术的算法实现及改进[J]. 景秀丽. 沈阳师范大学学报(自然科学版). 2012(04)
[4]短语结构树库向依存结构树库转化研究[J]. 李正华,车万翔,刘挺. 中文信息学报. 2008(06)
[5]汉语句法树库标注体系[J]. 周强. 中文信息学报. 2004(04)
[6]汉语主题句的特性[J]. 石定栩. 现代外语. 1998(02)
博士论文
[1]汉语依存句法分析关键技术研究[D]. 李正华.哈尔滨工业大学 2013
硕士论文
[1]中文语句压缩关键技术研究[D]. 姜雪.东北大学 2014
[2]语句压缩及其应用研究[D]. 张永磊.苏州大学 2013
[3]基于主动学习的汉语依存树库构建[D]. 陈鑫.哈尔滨工业大学 2011
本文编号:2960518
【文章来源】:苏州大学江苏省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图2-3句子压缩示例??
第二章任务及方法介绍?汉语依存句法分析树库构建与应用研宄??不同的输出通道去测试各自领域的数据。??Training?Testing??Multi-view?model?0utputA?0utput?B??t?“???^?Train?multi-view?^???model?-?Multi-view?model?—^??Corpus?A?Corpus?B?Raw??-??L??J?sentence??图2-6?mtl机制??本文将MTL机制加入到之前第2.2节介绍的BiLSTM-CRF模型中,用于汉语句??子压缩任务中。在训练和测试中,输入部分和单任务一样共享同样的参数向量表示,??然后根据共享参数分别输入到不同的语料类型(A和B)对应的MLP计算得分,以??及利用各自私有的CRF层进行结构化预测,具体内容见第5.5节中的详细介绍。??2.5本章小结??本章详细地介绍了本文研宄中相关任务的描述和定义,包括依存句法分析、局部??标注以及句子压缩;另外对文中所涉及到的机器学习方法的介绍,包括双向长短期记??忆网络-条件随机场模型(BiLSTM-CRF)、基于图的双仿射神经网络依存句法分析模??型(Biaffine?Parser)、多任务学习方法(MTL)。BiLSTM-CRF模型由于能有效地解决??序列中记忆信息丢失问题,是Biaffme?Parser模型以及MTL模型的重要组成部分。在??第四章汉语依存句法树库的构建工作中,将Biaffine?Parser模型用于数据选取的置信??度判定,并对依存句法标注数据进行仿真实验和分析。将BiLSTM-CRF模型和MTL??模型用于第五章的句子压
的??词语的并列,并列词语可以是动词、名词、形容词等。似迎过标注实践发现,很多句??子屮并列谓语之间的句法关系不尽相同,这两个依存关系类型并不能非常准确地表??示并列谓语之间更深层次的关系,而且其界限非常难掌握。因此,在我们的规范中,??为了更加深入而又准确地表示句子内部谓语之间的句法关系,通过判定句子中的多??个谓语是否对句子中的主语和宾语进行共享,我们细分出了三种不同的依存关系类??型,包括同主语(sasubj)、同主语同宾语(sasubj-obj)与不同主语(dfsubj),如图3-1所??示,“建立”和“改进”是同主语关系,“建立”和“健全”是同主语同宾语关系,“建??立”和“提高”是不同主语关系。??¥工厂建立健全责仟制,改进技术,员I:才能提高效申.。??图3-1?sasubj-obj、sasubj、dfsubj依存关系类型示例??17??
【参考文献】:
期刊论文
[1]适应多领域多来源文本的汉语依存句法数据标注规范[J]. 郭丽娟,李正华,彭雪,张民. 中文信息学报. 2018(10)
[2]多领域中文依存树库构建与影响统计句法分析因素之分析[J]. 邱立坤,史林林,王厚峰. 中文信息学报. 2015(05)
[3]Hedge Trimmer句子压缩技术的算法实现及改进[J]. 景秀丽. 沈阳师范大学学报(自然科学版). 2012(04)
[4]短语结构树库向依存结构树库转化研究[J]. 李正华,车万翔,刘挺. 中文信息学报. 2008(06)
[5]汉语句法树库标注体系[J]. 周强. 中文信息学报. 2004(04)
[6]汉语主题句的特性[J]. 石定栩. 现代外语. 1998(02)
博士论文
[1]汉语依存句法分析关键技术研究[D]. 李正华.哈尔滨工业大学 2013
硕士论文
[1]中文语句压缩关键技术研究[D]. 姜雪.东北大学 2014
[2]语句压缩及其应用研究[D]. 张永磊.苏州大学 2013
[3]基于主动学习的汉语依存树库构建[D]. 陈鑫.哈尔滨工业大学 2011
本文编号:2960518
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2960518.html