基于全局搜索和局部分类的特定领域双语网站识别方法
发布时间:2017-09-30 22:32
本文关键词:基于全局搜索和局部分类的特定领域双语网站识别方法
更多相关文章: 统计机器翻译 特定领域机器翻译 双语网站 翻译等价对
【摘要】:根据领域性较强的网站往往蕴含大量平行或可比较双语样本这一特点,针对特定领域双语网站的自动识别问题,提出了一种基于全局搜索和局部分类的方法。以电子器件领域为目标,采用全局搜索方法获得该领域双语网站18 944个,随机抽取其中3 000个网站进行人工标注,在标注语料上,采用局部分类方法识别该领域双语网站的性能(F值)达到85.19%。在此基础上,利用识别出的目标领域双语网站中的双语句对,扩充特定领域机器翻译系统的训练集进行实验。实验结果表明,相同测试集下,特定领域机器翻译系统的性能获得显著提升,验证了本文所提出的自动识别特定领域双语网站方法的有效性。
【作者单位】: 苏州大学计算机科学与技术学院;
【关键词】: 统计机器翻译 特定领域机器翻译 双语网站 翻译等价对
【基金】:国家自然科学基金(No.61272259;61272260;61373097)
【分类号】:TP393.092
【正文快照】: 0引言统计机器翻译(Statistical Machine Translation,SMT)系统的性能很大程度上依赖于训练语料的规模和质量。原因在于,训练语料的规模越大、质量越好,则有效的翻译知识越多,涵盖的语言现象也越充分,从而有助于提升翻译系统中语言模型和翻译模型的训练效果。然而,叶莎妮等[1]
【参考文献】
中国期刊全文数据库 前2条
1 叶莎妮;吕雅娟;黄峗;刘群;;基于Web的双语平行句对自动获取[J];中文信息学报;2008年05期
2 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[J];中文信息学报;2011年01期
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
5 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
6 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
7 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
8 李卓远,吴为民,王e,
本文编号:950823
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/950823.html