哈萨克语句法分析辅助特征提取研究
发布时间:2020-10-15 10:36
哈萨克语的信息处理目前已经完成了基本短语自动识别、固定短语抽取和词性标注。本文对哈萨克语进行短语结构的句法分析研究,主要采用了基于移进-归约的句法分析方法,使用感知器算法和柱搜索算法在句法分析过程中进行训练与解码,并通过加入神经网络为解码过程添加辅助特征,帮助更高效地解析出哈萨克语句法结构。本文的主要研究工作如下:1.在哈萨克语句法分析过程中,以基于移进-归约的句法分析方法为整体框架,通过每一步的移进-归约动作,最终得出哈萨克语短语结构的句法树。2.在哈萨克语句法分析训练阶段,采用感知器算法对标准的哈萨克语句法结构的句子进行训练,传统的句法分析主要依赖语言的规则库,而感知器算法训练是一个不断调整参数不断学习哈萨克语句子特征的过程。它初始化参数向量全为零,并通过对训练样本进行解码来更新参数。3.在哈萨克语句法分析解码阶段,采用柱搜索算法进行解码,在解析句子过程中,通过放弃一些权重比较小的小概率节点,来控制搜索空间的大小,以获得概率较大的句法树。既控制了解码过程中所占用的搜索空间,又通过统计的方法获得最合适的句法树。4.在解码过程中通过神经网络添加辅助特征,在解析句子过程中,本文构建了一个双向LSTM模型,利用它提取句子中每个单词之间组成结构的信息,以预测每个单词在句法树中的句法组成部分,然后将结果作为辅助特征传递给句法分析过程,帮助生成哈萨克语句法树。经实验证明,使用基于移进-归约的句法分析方法可以解析出哈萨克语句法结构,对于句法分析过程中使用神经网络提取一些辅助特征来辅助解码后,在解析速度和准确性上都有所提高。
【学位单位】:新疆大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1
【部分图文】:
单层感知器原理图
【参考文献】
本文编号:2842062
【学位单位】:新疆大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1
【部分图文】:
单层感知器原理图
【参考文献】
相关期刊论文 前10条
1 于智娟;古丽拉·阿东别克;;基于层叠条件随机场的哈语树库构建技术研究[J];计算机应用与软件;2016年03期
2 牛娜;古丽拉·阿东别克;;基于规则的哈萨克语句法分析算法研究[J];计算机技术与发展;2015年09期
3 尚文清;古丽拉·阿东别克;牛娜;于智娟;;基于PCFG模型的哈萨克语句法分析[J];现代计算机(专业版);2015年14期
4 户冰心;古丽拉·阿东别克;祁卉;;哈萨克语“v+n+n”格式的歧义消解[J];计算机工程;2014年12期
5 汪泱;古丽拉·阿东别克;户冰心;牛宁宁;;基于条件随机场的哈萨克语基本短语自动识别[J];计算机工程与设计;2014年10期
6 古丽扎达·海沙;古丽拉·阿东别克;;哈萨克语动词短语自动识别研究与实现[J];计算机工程与应用;2015年02期
7 桑海岩;古丽拉·阿东别克;牛宁宁;;基于最大熵的哈萨克语词性标注模型[J];计算机工程与应用;2013年11期
8 吴伟成;周俊生;曲维光;;基于统计学习模型的句法分析方法综述[J];中文信息学报;2013年03期
9 马骥;朱慕华;肖桐;朱靖波;;面向移进—归约句法分析器的单模型系统整合算法[J];中文信息学报;2012年03期
10 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
本文编号:2842062
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2842062.html