基于深度学习的印尼语机器翻译系统的实现
发布时间:2023-03-22 20:12
近年来,随着印度尼西亚与外界交流的日益频繁,印尼语成为了相互交流的主要障碍,而机器翻译便是解决这一障碍的有效手段之一。对于机器翻译任务,也和众多领域一样青睐于深度学习,尤其在序列到序列的神经网络翻译系统打破了传统机器翻译的局面后,一体化的结构和不错的翻译结果受到了研究者的瞩目。本文以深度学习为研究设计背景,结合近年相关的前沿研究成果,针对印尼语的语言特性以及完成印尼语机器翻译系统所面临的问题,主要在以下方面展开工作:(1)根据印尼语和英语高度相似性的特点,参考了英语翻译的神经网络架构后,确定印尼语翻译采用编码-解码的神经网络结构,并进行基本结构以及隐层单元计算的相应改进。(2)数据挖掘存在单双语料规模小质量差的问题,采取两种不同的挖掘策略并在工程上实现:本地定向抓取和集群上分布式抓取。(3)对数据进行多种方式清洗以及预处理,保证数据质量的情况下使其规模达到最大化。(4)在模型训练之前先对印尼语进行字符级训练,生成语言检测模型。另外分析并解决训练中出现未登录词的问题。(5)优化训练模型并实现一体化的印尼语机器翻译系统。最后,对印尼语与汉语互译、印尼语与英语互译的翻译模型测试,最优的模型融...
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 印尼语机器翻译研究背景
1.2 机器翻译发展历程
1.3 机器翻译国内外现状
1.3.1 系统应用
1.3.2 技术评测
1.3.3 性能现状
1.4 论文解决的主要问题
1.5 论文的组织结构
第2章 印尼语翻译系统的设计
2.1 印尼语机器翻译的需求
2.2 印尼语语言特性
2.2.1 印尼语与英语
2.2.2 印尼语与汉语
2.3 印尼语机器翻译的总体架构
2.3.1 翻译系统设计目标
2.3.2 系统总体架构
2.4 印尼语翻译的神经网络结构
2.4.1 印尼语翻译基础网络结构
2.4.2 基础网络结构的改进
2.4.3 解码器隐层单元的改进
2.5 印尼语翻译的结构设计
2.6 本章小结
第3章 印尼语机器翻译的数据准备
3.1 数据采集需求
3.2 数据收集
3.2.1 中英印尼单双语料下载
3.2.2 中英印尼单双语料抓取
3.3 不同网站的爬取方式
3.3.1 本地爬取工程实现
3.3.2 集群抓取工程实现
3.4 单双语料清洗
3.4.1 数据去重
3.4.2 长度清洗
3.4.3 词表清洗
3.5 本章小结
第4章 数据预处理
4.1 印尼语语言检测
4.2 语料基本格式处理
4.3 未登录词问题
4.3.1 未登录词的出现
4.3.2 未登录词问题的解决
4.4 本章小结
第5章 印尼语机器翻译系统的优化及测试
5.1 词向量模型预训练
5.2 中印及英印互译模型的训练
5.2.1 超参数配置
5.2.2 印尼语翻译模型训练流程
5.3 印尼语翻译模型的工程优化
5.3.1 BLEU自动测试
5.3.2 动态重排序
5.3.3 模型存储优化
5.4 印尼语翻译模型测试
5.4.1 中英及印的互译模型测试
5.4.2 竞品翻译评测
5.5 印尼语翻译系统使用示例
5.6 本章小结
第6章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
学位论文评阅及答辩情况表
本文编号:3767510
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 印尼语机器翻译研究背景
1.2 机器翻译发展历程
1.3 机器翻译国内外现状
1.3.1 系统应用
1.3.2 技术评测
1.3.3 性能现状
1.4 论文解决的主要问题
1.5 论文的组织结构
第2章 印尼语翻译系统的设计
2.1 印尼语机器翻译的需求
2.2 印尼语语言特性
2.2.1 印尼语与英语
2.2.2 印尼语与汉语
2.3 印尼语机器翻译的总体架构
2.3.1 翻译系统设计目标
2.3.2 系统总体架构
2.4 印尼语翻译的神经网络结构
2.4.1 印尼语翻译基础网络结构
2.4.2 基础网络结构的改进
2.4.3 解码器隐层单元的改进
2.5 印尼语翻译的结构设计
2.6 本章小结
第3章 印尼语机器翻译的数据准备
3.1 数据采集需求
3.2 数据收集
3.2.1 中英印尼单双语料下载
3.2.2 中英印尼单双语料抓取
3.3 不同网站的爬取方式
3.3.1 本地爬取工程实现
3.3.2 集群抓取工程实现
3.4 单双语料清洗
3.4.1 数据去重
3.4.2 长度清洗
3.4.3 词表清洗
3.5 本章小结
第4章 数据预处理
4.1 印尼语语言检测
4.2 语料基本格式处理
4.3 未登录词问题
4.3.1 未登录词的出现
4.3.2 未登录词问题的解决
4.4 本章小结
第5章 印尼语机器翻译系统的优化及测试
5.1 词向量模型预训练
5.2 中印及英印互译模型的训练
5.2.1 超参数配置
5.2.2 印尼语翻译模型训练流程
5.3 印尼语翻译模型的工程优化
5.3.1 BLEU自动测试
5.3.2 动态重排序
5.3.3 模型存储优化
5.4 印尼语翻译模型测试
5.4.1 中英及印的互译模型测试
5.4.2 竞品翻译评测
5.5 印尼语翻译系统使用示例
5.6 本章小结
第6章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
学位论文评阅及答辩情况表
本文编号:3767510
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3767510.html
最近更新
教材专著