基于CNN-CorrNet网络的汉缅平行句对抽取方法
发布时间:2021-12-31 12:52
构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用CorrNet(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,该文提出的方法F1值分别提升了13.3%、5.1%。
【文章来源】:中文信息学报. 2020,34(11)北大核心CSCD
【文章页数】:7 页
【部分图文】:
基于CNN-CorrNet汉缅平行句对抽取方法框架图
CorrNet的结构
为了体现不同数量的平行语料对模型的影响,我们设计一组语料规模对比实验,结果如图3所示。从图3中可以看出,在训练模型时,我们放入不同规模大小的平行语料,随着汉缅双语平行语料规模的增加,模型在相同测试集上的F1值持续上升。
【参考文献】:
期刊论文
[1]基于局部和全局语义融合的跨语言句子语义相似度计算模型[J]. 李霞,刘承标,章友豪,蒋盛益. 中文信息学报. 2019(06)
[2]基于枢轴语言的平行语料构建方法[J]. 单华,张玉洁,周雯,徐金安,陈钰枫. 情报工程. 2017(03)
[3]二分图顶点配对模型下的英汉句子对齐研究[J]. 严灿勋. 中文信息学报. 2016(05)
本文编号:3560291
【文章来源】:中文信息学报. 2020,34(11)北大核心CSCD
【文章页数】:7 页
【部分图文】:
基于CNN-CorrNet汉缅平行句对抽取方法框架图
CorrNet的结构
为了体现不同数量的平行语料对模型的影响,我们设计一组语料规模对比实验,结果如图3所示。从图3中可以看出,在训练模型时,我们放入不同规模大小的平行语料,随着汉缅双语平行语料规模的增加,模型在相同测试集上的F1值持续上升。
【参考文献】:
期刊论文
[1]基于局部和全局语义融合的跨语言句子语义相似度计算模型[J]. 李霞,刘承标,章友豪,蒋盛益. 中文信息学报. 2019(06)
[2]基于枢轴语言的平行语料构建方法[J]. 单华,张玉洁,周雯,徐金安,陈钰枫. 情报工程. 2017(03)
[3]二分图顶点配对模型下的英汉句子对齐研究[J]. 严灿勋. 中文信息学报. 2016(05)
本文编号:3560291
本文链接:https://www.wllwen.com/waiyulunwen/zhichangyingyu/3560291.html