当前位置:主页 > 科技论文 > 软件论文 >

越南语句法分析与树库转化方法研究

发布时间:2020-03-12 16:04
【摘要】:自然语言处理是人工智能研究中非常重要的一部分,而人工智能的飞速发展也推动了自然语言处理的研究热潮。句法分析是自然语言处理中的关键技术之一,其基本任务就是确定句子的句法结构。句法分析不仅能够为自然语言处理的上层应用提供服务,也能为自然语言处理的底层处理提供帮助。目前,汉语英语的句法分析研究相对比较成熟,但针对越南语句法分析的研究很少。越南语句法分析和树库转换方法研究的目的是构建一定规模的越南语短语树和依存树,同时增强越南语句法分析的准确率和效率。本文将从越南语短语句法分析、越南语复杂长句句法分析和越南语短语树到依存树的转换三个方面进行深入分析。(1)提出融合越南语语言特征与改进PCFG的越南语短语树库构建方法。目前对越南语句法分析的研究工作较少,还没建立越南语短语树库。本文首先通过分析越南语的语言特征,制定出越南语的语言特征集;然后利用Inside-Outside算法从人工标注的少量越南语短语树获取PCFG模型中的语法规则集;最后将语法特征集作为语法规则集的补充融入PCFG模型,用得到的新模型最终完成越南语短语树库的构建。实验结果表明,本文提出的新的PCFG模型针对越南语短语树库构建的准确率达到了 81.14%,相比传统PCFG模型以及基于最大熵的树库构建方法准确率明显提高了两到三个百分点。(2)提出基于规则分层的越南语复杂长句句法分析方法。目前已有的句法分析研究大都忽略了标点符号这一重要的句法特征或者只进行非常简单的处理,越南语的句法分析也是如此。首先根据标点符号的句法结构特性,提出规则分层的概念;然后根据标点符号在句子中的特有特征和位置关系,给出了利用标点符号进行规则分层的二次分析方法;最终,将标点融入越南语复杂长句句法分析中。本文所用的实验数据均来自宾州树库中的越南语短语树。对越南语复杂长句句法分析进行了对比实验,本文所提出的越南语复杂长句句法分析准确率和召回率提高了两到三个百分点,同时时间开销降低了近1/3。(3)越南语短语树到依存树的转换研究。本文提出一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短语结构树转换成依存结构树。首先依据中文依存关系标注体系与越南语的语法规则,制定出依存关系列表;然后结合越南语的语言特点,制定出了中心子节点过滤表,利用中心子节点过滤表的思想进行初步转化;最后使用依存关系标注器来进行依存关系标注。基于转换后得到的依存结构树,利用MSTParser工具进一步训练得到更多的越南语依存结构树。本文对实验结果进行了抽样评估,树库转换的准确率达到了 89.4%,较好地解决了越南语由短语树到依存树的转换问题。
【图文】:

越南语,句法树,短语


2.5实验及结果分析逡逑2.5.1实验数据逡逑本文中所涉及的实验数据来源主要包括两个方面:其中,10000句越南语短逡逑语树来自宾州树库,25981条经过词性标注处理的越南语句子来自实验室自己在逡逑网站上获取的语料。10000句的越南语短语树有两个用处:一是从中随机抽取8000逡逑句作为训练语料,,2000句作为测试语料;二是利用10000句短语树统计出越南语逡逑语法规则集,并计算得到初始概率值。25981条越南语句子主要来自中国国际广逡逑14逡逑

越南语,句法树,输出分析,短语


2.5实验及结果分析逡逑2.5.1实验数据逡逑本文中所涉及的实验数据来源主要包括两个方面:其中,10000句越南语短逡逑语树来自宾州树库,25981条经过词性标注处理的越南语句子来自实验室自己在逡逑网站上获取的语料。10000句的越南语短语树有两个用处:一是从中随机抽取8000逡逑句作为训练语料,2000句作为测试语料;二是利用10000句短语树统计出越南语逡逑语法规则集,并计算得到初始概率值。25981条越南语句子主要来自中国国际广逡逑14逡逑
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 李英;郭剑毅;余正涛;线岩团;陈玮;;融合越南语语言特征与改进PCFG的越南语短语树库构建[J];南京大学学报(自然科学);2017年02期

2 李英;郭剑毅;余正涛;毛存礼;线岩团;;越南语短语树到依存树的转换研究[J];计算机科学与探索;2017年04期

3 李发杰;余正涛;郭剑毅;李英;周兰江;;借助汉-越双语词对齐语料构建越南语依存树库[J];中文信息学报;2015年06期

4 潘清清;周枫;余正涛;郭剑毅;线岩团;;基于条件随机场的越南语命名实体识别方法[J];山东大学学报(理学版);2014年01期

5 车万翔;张梅山;刘挺;;基于主动学习的中文依存句法分析[J];中文信息学报;2012年02期

6 张宏亮;;越汉翻译中双音节汉越词的运用问题[J];青年文学家;2010年01期

7 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期

8 李正华;车万翔;刘挺;;短语结构树库向依存结构树库转化研究[J];中文信息学报;2008年06期

9 詹新明;黄南山;杨灿;;语音识别技术研究进展[J];现代计算机(专业版);2008年09期

10 毛奇;连乐新;周文翠;袁春风;;基于标点符号分割的汉语句法分析算法[J];中文信息学报;2007年02期

相关博士学位论文 前1条

1 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年

相关硕士学位论文 前7条

1 李发杰;越南语依存树库构建以及依存关系分析方法研究[D];昆明理工大学;2016年

2 熊明明;越南语词法分析方法研究[D];昆明理工大学;2016年

3 莫媛媛;汉越双语词语对齐方法研究[D];昆明理工大学;2015年

4 陈鑫;基于主动学习的汉语依存树库构建[D];哈尔滨工业大学;2011年

5 李正华;依存句法分析统计模型及树库转化研究[D];哈尔滨工业大学;2008年

6 邵刚;基于中文的句法分析系统的研究与实现[D];西安科技大学;2008年

7 周云;汉语越南语机器翻译实验系统[D];中国人民解放军外国语学院;2006年



本文编号:2586575

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2586575.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a84f3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com