双语最大名词短语分析及应用研究
发布时间:2022-01-02 08:21
本文主要研究双语最大名词短语的识别对齐及其在统计机器翻译中的应用。机器翻译本质上是个语言问题,其最终解决也必须依靠语言学知识的运用。研究如何更有效地在统计机器翻译中融入有价值的句法层面的语言学知识,对于推动统计机器翻译的发展,具有重要的理论意义和应用价值。本文针对汉-英语言对,在考察了具有丰富句法和语义信息的汉英最大名词短语的结构特点后,从统计机器翻译的实际应用出发,致力于最大名词短语在双语中的扩展—双语最大名词短语的识别和对齐的研究,并论证在统计翻译模型中融入双语最大名词短语的可行性。研究内容主要包含以下四个部分:⑴提出并研究引入混合特征的汉语最大名词短语双向标注融合识别算法以汉语最大名词短语识别为研究任务,在分析现有方法的基础上,从汉语的语言学特殊性以及基于支持向量机的序列标注算法的特点出发,考查了基于混合特征的融合算法的适应性。通过理论分析和实验证明,采用词和基本组块混合标注单元的标注方法对汉语最大名词短语的识别是有效的,并且其正反向识别结果具有一定的互补性,在此基础上提出的基于“边界分歧”的双向序列标注融合算法能发掘双向识别的互补性,并达到较高的融合精度,F-1值达到88.24...
【文章来源】:北京理工大学北京市 211工程院校 985工程院校
【文章页数】:125 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 论文研究的目的和意义
1.2 国内外研究现状及发展趋势
1.2.1 最大名词短语的研究现状及发展趋势
1.2.2 统计机器翻译的研究现状及发展趋势
1.3 论文的研究内容
1.4 论文的结构安排
第2章 双语最大名词短语简析
2.1 汉英双语最大名词短语特性
2.2 双语最大名词短语的定义
2.3 双语最大名词短语识别对齐的问题描述和性能评价
2.3.1 问题描述
2.3.2 性能评价
2.4 双语最大名词短语的中心词
2.5 汉英最大名词短语识别的互补性
本章小结
第3章 引入混合特征的最大名词短语双向标注融合算法
3.1 机器学习算法
3.1.1 支持向量机
3.1.2 条件随机场
3.2 基于“边界分歧”的序列标注融合算法
3.3 特征选择
3.3.1 词层面的特征
3.3.2 基本组块层面的特征
3.3.3 词和基本组块混合特征
3.3.4 标点分类特征
3.4 实验结果及分析
3.4.1 实验设置
3.4.2 特征选择实验
3.4.3 双向融合实验
3.4.4 比较实验
本章小结
第4章 双语最大名词短语识别对齐
4.1 基于句法分析的双语最大名词短语获取
4.1.1 基于双端句法分析的最大名词短语对获取
4.1.2 基于单端句法分析的最大名词短语对获取
4.2 一体化的双语最大名词短语识别对齐算法
4.2.1 粗识别对齐
4.2.2 扩展候选最大名词短语对
4.2.3 单语句法信任度
4.2.4 双语对齐信任度
4.2.5 最优假设搜索算法
4.3 实验结果及分析
4.3.1 实验设置
4.3.2 实验结果与分析
本章小结
第5章 双语协同训练的最大名词短语识别算法
5.1 双语协同训练算法
5.2 双语对齐标注一致率
5.3 标记投射修正模型
5.3.1 投射最大名词短语扩展
5.3.2 最优假设搜索
5.4 实验结果及分析
5.4.1 实验设置
5.4.2 Baseline实验
5.4.3 双语Co-training算法实验
5.4.4 增量标注选择策略比较
本章小结
第6章 融入双语最大名词短语的机器翻译系统及实现
6.1 短语翻译模型的特征
6.2 融入双语最大名词短语的翻译模型
6.2.1 Method-I
6.2.2 Method-II
6.2.3 Method-III
6.3 实验结果及分析
6.3.1 实验设置
6.3.2 Method-I实验
6.3.3 Method-II和Method-III实验
本章小结
结论
参考文献
攻读学位期间发表论文与研究成果清单
致谢
作者简介
【参考文献】:
期刊论文
[1]基于统计学习模型的句法分析方法综述[J]. 吴伟成,周俊生,曲维光. 中文信息学报. 2013(03)
[2]汉语组块分析研究综述[J]. 李业刚,黄河燕. 中文信息学报. 2013(03)
[3]面向机器翻译的英语词性标注研究及其应用(英文)[J]. 马建军,黄德根,刘海霞,盛文凤. 中国通信. 2012(03)
[4]英语功能名词短语研究及其应用[J]. 马建军,黄德根. 大连理工大学学报. 2012(01)
[5]基于句法的统计机器翻译模型与方法[J]. 刘群. 中文信息学报. 2011(06)
[6]基于条件随机场模型的汉语功能块自动标注[J]. 李国臣,王瑞波,李济洪. 计算机研究与发展. 2010(02)
[7]汉语块分析评测任务设计[J]. 周强,李玉梅. 中文信息学报. 2010(01)
[8]基于双向标注融合的汉语最长短语识别方法[J]. 鉴萍,宗成庆. 智能系统学报. 2009(05)
[9]最长名词短语识别研究[J]. 钱小飞. 现代语文(语言研究版). 2009(07)
[10]分布式策略与CRFs相结合识别汉语组块[J]. 黄德根,于静. 中文信息学报. 2009(01)
博士论文
[1]面向机器翻译的英语功能名词短语识别研究[D]. 马建军.大连理工大学 2012
[2]基于统计学习的中文组块分析技术研究[D]. 孙广路.哈尔滨工业大学 2008
硕士论文
[1]中文最长名词短语识别研究[D]. 王月颖.哈尔滨工业大学 2007
本文编号:3563835
【文章来源】:北京理工大学北京市 211工程院校 985工程院校
【文章页数】:125 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 论文研究的目的和意义
1.2 国内外研究现状及发展趋势
1.2.1 最大名词短语的研究现状及发展趋势
1.2.2 统计机器翻译的研究现状及发展趋势
1.3 论文的研究内容
1.4 论文的结构安排
第2章 双语最大名词短语简析
2.1 汉英双语最大名词短语特性
2.2 双语最大名词短语的定义
2.3 双语最大名词短语识别对齐的问题描述和性能评价
2.3.1 问题描述
2.3.2 性能评价
2.4 双语最大名词短语的中心词
2.5 汉英最大名词短语识别的互补性
本章小结
第3章 引入混合特征的最大名词短语双向标注融合算法
3.1 机器学习算法
3.1.1 支持向量机
3.1.2 条件随机场
3.2 基于“边界分歧”的序列标注融合算法
3.3 特征选择
3.3.1 词层面的特征
3.3.2 基本组块层面的特征
3.3.3 词和基本组块混合特征
3.3.4 标点分类特征
3.4 实验结果及分析
3.4.1 实验设置
3.4.2 特征选择实验
3.4.3 双向融合实验
3.4.4 比较实验
本章小结
第4章 双语最大名词短语识别对齐
4.1 基于句法分析的双语最大名词短语获取
4.1.1 基于双端句法分析的最大名词短语对获取
4.1.2 基于单端句法分析的最大名词短语对获取
4.2 一体化的双语最大名词短语识别对齐算法
4.2.1 粗识别对齐
4.2.2 扩展候选最大名词短语对
4.2.3 单语句法信任度
4.2.4 双语对齐信任度
4.2.5 最优假设搜索算法
4.3 实验结果及分析
4.3.1 实验设置
4.3.2 实验结果与分析
本章小结
第5章 双语协同训练的最大名词短语识别算法
5.1 双语协同训练算法
5.2 双语对齐标注一致率
5.3 标记投射修正模型
5.3.1 投射最大名词短语扩展
5.3.2 最优假设搜索
5.4 实验结果及分析
5.4.1 实验设置
5.4.2 Baseline实验
5.4.3 双语Co-training算法实验
5.4.4 增量标注选择策略比较
本章小结
第6章 融入双语最大名词短语的机器翻译系统及实现
6.1 短语翻译模型的特征
6.2 融入双语最大名词短语的翻译模型
6.2.1 Method-I
6.2.2 Method-II
6.2.3 Method-III
6.3 实验结果及分析
6.3.1 实验设置
6.3.2 Method-I实验
6.3.3 Method-II和Method-III实验
本章小结
结论
参考文献
攻读学位期间发表论文与研究成果清单
致谢
作者简介
【参考文献】:
期刊论文
[1]基于统计学习模型的句法分析方法综述[J]. 吴伟成,周俊生,曲维光. 中文信息学报. 2013(03)
[2]汉语组块分析研究综述[J]. 李业刚,黄河燕. 中文信息学报. 2013(03)
[3]面向机器翻译的英语词性标注研究及其应用(英文)[J]. 马建军,黄德根,刘海霞,盛文凤. 中国通信. 2012(03)
[4]英语功能名词短语研究及其应用[J]. 马建军,黄德根. 大连理工大学学报. 2012(01)
[5]基于句法的统计机器翻译模型与方法[J]. 刘群. 中文信息学报. 2011(06)
[6]基于条件随机场模型的汉语功能块自动标注[J]. 李国臣,王瑞波,李济洪. 计算机研究与发展. 2010(02)
[7]汉语块分析评测任务设计[J]. 周强,李玉梅. 中文信息学报. 2010(01)
[8]基于双向标注融合的汉语最长短语识别方法[J]. 鉴萍,宗成庆. 智能系统学报. 2009(05)
[9]最长名词短语识别研究[J]. 钱小飞. 现代语文(语言研究版). 2009(07)
[10]分布式策略与CRFs相结合识别汉语组块[J]. 黄德根,于静. 中文信息学报. 2009(01)
博士论文
[1]面向机器翻译的英语功能名词短语识别研究[D]. 马建军.大连理工大学 2012
[2]基于统计学习的中文组块分析技术研究[D]. 孙广路.哈尔滨工业大学 2008
硕士论文
[1]中文最长名词短语识别研究[D]. 王月颖.哈尔滨工业大学 2007
本文编号:3563835
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3563835.html