多动词汉语概念复合块的分析与标注研究

发布时间:2017-10-22 08:26

  本文关键词:多动词汉语概念复合块的分析与标注研究


  更多相关文章: 句法分析树库 标注库规范化 动词层次分类 “移进-归约”分析 标签预测


【摘要】:随着时代的发展,科学技术的日益进步,数据在人们日常生活中扮演着越来越重要的角色,作为自然语言处理重点研究内容的句法分析研究也越来越被学者们所重视。句法分析是自然语言处理领域的重点研究内容,同时又是难点。对汉语句子的完全句法分析具有较大的难度,现阶段的分析方法仍处于初级阶段,很难在实际中应用。为了降低完全句法分析操作的难度,同时为现阶段的研究提供数据支持,组块分析技术受到了研究者的青睐。组块分析是采用“分而治之”的思想,将复杂问题模块化,其关注的主要问题有:块分割粒度大小的确定、块内和块外的结构表示等。因此,概念复合块描述体系被提出,可以描述句子的基本结构,以及各个块内部结构。目前的句法分析器都是通用型的,在普通句和一般的简单句上的分析结果比较理想,而如果句式复杂,比如包含多个动词的情况时,分析器的结果不理想。原因是分析器对动词所处位置分析不准确,造成成分划分错误,且国内很少有研究者针对包含多个动词的句子设计专门的句法分析器。本文针对以上存在的问题展开了如下几个方面的研究工作:首先,本文在概念层次上对概念复合块体系进行了描述,然后根据汉语句子的分析需要,对目前的概念复合块定义中包含多个动词的内容进行了描述。本文利用概念复合块体系的标准进行分析研究,提出了对句法标注树库的规范化研究的方法。句法标注树库的准确度对后续训练模型、规则与数据抽取过程息息相关。因而本文首先对人工标注的句法树库进行观察与统计分析,设计了规范化处理方法。利用该方法,本文将句法树库中可能包含的一些错误进行修正和剔除,提高树库标注的可靠度,为构建训练数据做好准备工作。其次,本文根据概念复合块自动分析过程中对包含多动词句子分析错误的类型进行分析,提出了一种针对概念复合块的动词层次分类的方法。对已规范化处理的句法树库,通过分析观察包含多个动词的句子的特点,以及标注错误类型,得知在包含多个动词的句子中,通常由于对动词的分析错误而导致整句的分析不准确。本文利用统计方法,首先将包含多个动词的句子进行抽取,分析动词构成规律,设计了一套规则分析的方法:将句子中的动词所属的层次进行分类,也即确定动词所属位置,将动词划分结果作为下一步分析的输入。实验表明,本实验中利用规则方法对动词进行分类,可以对后续分析器起到较好的作用。最后,本文提出了多动词的自动分析方法。通过对包含多个动词句子中的动词所属成分进行分析,对符合规则的动词内容进行分类处理,得出动词层次关系后,利用“移进-归约”的组块分析方法对句子进行整体分析,并在原始的“移进-归约”结束条件中加入对动词是否归约结束的判断:若原属于同一组块的动词没有归约到同一组块,则继续归约到同一组块;对不属于同一组块而分析器却要归约到同一组块的情况不采取规约操作。在对加入规约条件后的组块中,包含一些无法确定关系标记的部分,采用标签预测的方法进行处理,最终得到一个完整的分析句子。实验表明,本方法在对包含多个动词的分析处理中,分析结果较通用分析器好,对句子中的动词成分处理更加准确,从而提升了分析器对复杂句处理的整体效果。
【关键词】:句法分析树库 标注库规范化 动词层次分类 “移进-归约”分析 标签预测
【学位授予单位】:北京信息科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 绪论10-14
  • 1.1 研究背景10
  • 1.2 国内外研究现状10-11
  • 1.3 研究的意义与应用前景11-12
  • 1.4 本文研究思路和主要工作12
  • 1.5 论文组织结构12-14
  • 第2章 概念复合块简介14-19
  • 2.1 概念复合块目标14
  • 2.2 概念复合块描述体系14-16
  • 2.3 多动词概念复合块16-19
  • 第3章 概念复合块标注库规范化研究19-30
  • 3.1 引言19
  • 3.2 概念复合块标注库规范化处理目标19-20
  • 3.3 概念复合块标注库规范化处理方法20-27
  • 3.3.1 错误词类标记自动调整20-23
  • 3.3.2 事件句式内部特征标记自动补充23-25
  • 3.3.3 空间块和时间块标记一致化处理25-27
  • 3.4 规范化结果评价27-29
  • 3.5 小结29-30
  • 第4章 概念复合块动词层次分类研究30-43
  • 4.1 引言30
  • 4.2 概念复合块动词分布特征分析30-34
  • 4.3 规则库自动提取34-37
  • 4.4 概念复合块动词层次分类方法37-39
  • 4.5 实验结果与分析39-42
  • 4.5.1 实验设置39-41
  • 4.5.2 结果及分析41-42
  • 4.6 本章小结42-43
  • 第5章 多动词汉语概念复合块自动分析研究43-57
  • 5.1 引言43
  • 5.2 多动词概念复合块分析难点43-48
  • 5.3 概念复合块分析方法48-54
  • 5.3.1 移进--归约块分析方法(SR)48-49
  • 5.3.2 改进的移进—归约分析方法(ISR)49-51
  • 5.3.3 特征选择51-53
  • 5.3.4 标签预测53-54
  • 5.4 实验结果与分析54-56
  • 5.4.1 实验设置54
  • 5.4.2 ISR CCC Parser与SR CCC Parser性能分析比较54-56
  • 5.5 本章小结56-57
  • 第6章 工作总结与展望57-59
  • 6.1 本文工作总结57
  • 6.2 下一步工作57-59
  • 参考文献59-62
  • 附录A 表目录62-63
  • 附录B 图目录63-64
  • 个人简历 在校期间发表论文与研究成果64-65
  • 致谢65

【参考文献】

中国期刊全文数据库 前10条

1 姜维;庞秀丽;;面向数据稀疏问题的个性化组合推荐研究[J];计算机工程与应用;2012年21期

2 马骥;朱慕华;肖桐;朱靖波;;面向移进—归约句法分析器的单模型系统整合算法[J];中文信息学报;2012年03期

3 孙广路;郎非;薛一波;;基于条件随机域和语义类的中文组块分析方法[J];哈尔滨工业大学学报;2011年07期

4 韦向峰;张全;;汉语块扩句的自动分析[J];计算机科学;2010年04期

5 周强;李玉梅;;汉语块分析评测任务设计[J];中文信息学报;2010年01期

6 宇航;周强;;汉语基本块标注系统的内部关系分析[J];清华大学学报(自然科学版);2009年10期

7 周俊生;戴新宇;陈家骏;曲维光;;基于大间隔方法的汉语组块分析[J];软件学报;2009年04期

8 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期

9 黄德根;于静;;分布式策略与CRFs相结合识别汉语组块[J];中文信息学报;2009年01期

10 孙昂;江铭虎;贺一帆;陈林;袁保宗;;基于句法分析和答案分类的中文问答系统[J];电子学报;2008年05期



本文编号:1077563

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1077563.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户64f35***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com