面向Web的多语平行句对挖掘技术研究
发布时间:2017-09-24 02:30
本文关键词:面向Web的多语平行句对挖掘技术研究
更多相关文章: 双语平行语料 混合网页 语料获取 多语综合检索
【摘要】:双语平行语料库是统计机器翻译及其一系列相关研究应用不可或缺的重要资源。传统的人工校验、录入平行语料的方式不仅耗时费力,,而且很难在有限的时间内建立起较大规模的平行语料库。随着互联网上各种双语、多语网站的兴起,很多研究人员开始研究从互联网上获取双语平行语料。然而,以往的一些研究主要集中于从平行网页(内容互为翻译的两个不同语种的网页)中获取平行语料。由于平行网页的稀缺性,导致所获得的语料规模、领域覆盖度不是很好。后来,有学者发现Web上存在着大量的混合网页(同一网页中存在互为翻译的两个语种的正文),且混合网页中的双语语料质量、覆盖领域都是平行网页所无法比拟的。因此,本文的研究主要围绕Web上的混合网页展开,并致力于建设能够从Web中的混合网页中自动获取双语平行语料的系统。 本文的具体研究内容主要涉及以下几个方面: (1)本文总结了近年来国内外双语平行语料库建设以及双语平行语料库建设方法的研究现状。目前,国内双语平行语料库建设和研究工作的主要侧重于语料的后期处理,如语料库的加工标注、翻译知识获取等方面。同时,已有的平行语料库集中于中英双语平行语料库,面向大规模原始多语种的双语平行语料库的建设并没有得到充分重视。 (2)本文在对现有双语平行语料库建设方法进行理论分析的基础上,实现了从Web自动挖掘平行语料的系统。该系统以互联网上广泛存在的具有较高研究价值的双语混合网页为主要的双语语料来源,其主要技术难点在于候选网页获取、双语混合网页检测、网页正文解析、平行句对齐等。本系统采用借助搜索引擎的检测与下载同步进行的候选网页获取方法,以网页内不同语种正文比例进行混合网页检测,使用标签分析的方法进行网页正文解析,平行句对齐则是采用融合了HTML标签特征的句对齐方法。通过实验检验,本系统双语混合网页检测准确率达到95%以上;网页正文解析准确率达到88%以上;平行句对齐准确率达到90%以上。 (3)本文结合所获取的双语语料,完成了基于Lucene的多语综合检索系统。该系统以英语为中间语言进行用户查询的处理,经过简单测试,该系统返回的检索结果基本符合要求。
【关键词】:双语平行语料 混合网页 语料获取 多语综合检索
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
- 摘要4-5
- Abstract5-9
- 第1章 绪论9-15
- 1.1 课题背景9-10
- 1.2 国内外相关研究现状10-13
- 1.3 研究内容及章节安排13-15
- 第2章 候选网页获取及正文解析15-35
- 2.1 引言15-16
- 2.2 候选网页集合获取16-21
- 2.3 网页正文解析21-33
- 2.4 本章小结33-35
- 第3章 混合网页检测35-44
- 3.1 引言35
- 3.2 语种识别35-38
- 3.3 网页正文互译检测38-42
- 3.4 本章小结42-44
- 第4章 多特征平行句对齐44-51
- 4.1 引言44-45
- 4.2 平行句对齐方法45-48
- 4.3 实验对比与分析48-49
- 4.4 本章小结49-51
- 第5章 多语综合检索系统51-61
- 5.1 引言51
- 5.2 LUCENE 简介51-53
- 5.3 系统设计框架53-57
- 5.4 实验结果与分析57-60
- 5.5 本章小结60-61
- 结论61-62
- 参考文献62-66
- 攻读硕士学位期间发表的论文及其它成果66-68
- 致谢68
【参考文献】
中国期刊全文数据库 前10条
1 李维刚;刘挺;张宇;李生;;基于长度和位置信息的双语句子对齐方法[J];哈尔滨工业大学学报;2006年05期
2 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期
3 聂建云,陈江;利用平行网页建立中英文统计翻译模型[J];中文信息学报;2001年01期
4 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
5 周佳颖;朱珍民;高晓芳;;基于统计与正文特征的中文网页正文抽取研究[J];中文信息学报;2009年05期
6 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[J];中文信息学报;2011年01期
7 才让加;;面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J];中文信息学报;2011年06期
8 黄立波;朱志瑜;;国内英汉双语平行语料库建构与研究现状及展望[J];当代外语研究;2013年01期
9 熊忠阳;蔺显强;张玉芳;牙漫;;结合网页结构与文本特征的正文提取方法[J];计算机工程;2013年12期
10 邵振凯;;网页信息提取技术[J];计算机技术 与发展;2013年09期
本文编号:908856
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/908856.html