基于转移的哈萨克语句子分析技术研究
发布时间:2017-12-19 12:28
本文关键词:基于转移的哈萨克语句子分析技术研究 出处:《新疆大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 串行分析 联合模型 基于转移的分析方法 Beam-Search解码算法
【摘要】:哈萨克语句子级别的分析技术主要包括词性标注,组块,句法分析和语义分析,现在哈萨克语处理已经进展到短语结构句法分析层面。本文主要对哈萨克语词性标注,组块和短语结构句法分析进行相应研究。传统的哈萨克语句子分析技术一般采用层次顺序串行分析每个任务,每个任务分析时都采用最佳模型进行分析。但是这种串行分析的方法存在两个问题:第一是错误蔓延,即低层任务的结果作为上层任务的输入,如果低层任务出现错误,势必会影响上层任务的结果。第二是每层任务采用局部最优,高层任务的信息无法传送到低层任务。对于这个问题,联合模型很好的解决了这个问题。由于联合模型的解码时搜索空间是各个任务搜索空间的乘积,因此联合分析模型中最多选择两个任务进行联合分析。统计模型的方法包括基于转移的分析方法和基于图模型的分析方法。基于转移的分析方法相比于基于图的分析方法在性能上略差,但是其解码效率上有明显的优势。为了提高基于转移的分析方法性能,有两种可行性方法。第一,提高下层任务性能,从而提高整体任务性能。第二,建立联合模型,利用任务之间的相互作用提升整体性能。在本文中对词性标注、组块、句法分析三个任务展开四个方面的研究工作:1.本文设计词性标注和组块进行联合分析,词性和组块进行相互作用提升各自准确率,并把其结果作为句法分析的输入,从而提高句法分析的准确率。2.设计混合模型对词性标注和组块联合分析,既解决了串行模型错误蔓延和下层任务不能利用上层任务信息的问题,在本文中利用组块信息解决兼类词的歧义问题;又解决了联合模型特征选择受限问题,整体上提高词性标注和组块的准确率。3.本文改进Beam-Search解码算法,即把固定柱值B改为动态柱值。即对候选集合中选项的分值都与集合中的最大分值相比,并设计固定阈值进行剪枝比值较小的候选结果。改进精准了搜索空间,使结果准确率提高。4.在句法分析中,设计奖励函数来降低Beam-Search解码算法在搜索时剪枝最佳结果的风险,使解码更为精准,从而提高准确率。
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前6条
1 尚文清;古丽拉·阿东别克;牛娜;于智娟;;基于PChart算法的哈萨克语句法分析[J];计算机工程与设计;2016年03期
2 韩冰;刘一佳;车万翔;刘挺;;基于感知器的中文分词增量训练方法研究[J];中文信息学报;2015年05期
3 桑海岩;古丽拉·阿东别克;牛宁宁;;基于最大熵的哈萨克语词性标注模型[J];计算机工程与应用;2013年11期
4 吴伟成;周俊生;曲维光;;基于统计学习模型的句法分析方法综述[J];中文信息学报;2013年03期
5 马骥;朱慕华;肖桐;朱靖波;;面向移进—归约句法分析器的单模型系统整合算法[J];中文信息学报;2012年03期
6 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
中国博士学位论文全文数据库 前1条
1 张梅山;中文词法句法语义联合分析模型研究[D];哈尔滨工业大学;2014年
中国硕士学位论文全文数据库 前1条
1 于智娟;基于层叠CRFs的哈萨克语树库构建技术研究[D];新疆大学;2015年
,本文编号:1307986
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1307986.html