基于机器翻译技术的中文分词方法研究

发布时间:2022-12-11 09:11
  中文分词是中文自然语言处理中最重要的一步,分词结果的好坏会严重影响后续任务的性能。目前的研究工作中多是使用深度学习方法来进行中文分词。这些研究工作大多数只用到句子中局部的上下文信息。近年来,将中文分词当作机器翻译问题来解决的新思路受到较多关注。基于这种思路的中文分词方法利用机器翻译模型直接对整个语句进行处理,能有效的利用全局的上下文信息。然而,机器翻译模型在翻译的过程中产生的错误翻译会导致分词的准确率降低。通过研究机器翻译问题和中文分词问题的不同点,提出一种新的基于循环修正策略的翻译分词方法来解决翻译错误问题。基于循环修正策略的翻译分词方法在机器翻译模型翻译的过程中直接利用待分词的句子来纠正错误的译文,提高模型的分词的准确度。设计并实现了集成翻译器、纠错器的中文分词模型CWSTransformer,使用翻译器实现初步分词,通过纠错器完成对翻译结果的纠正。在翻译器中采用了机器翻译模型。在纠错模块中,采用了基于循环修正策略的翻译分词方法。对CWSTransformer翻译器中的输出部分进行改进,得到分词速度更快的中文分词模型CWSTransformer-S。实验在标准数据集PKU和MSR上... 

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文主要研究内容
    1.4 论文组织结构
2 相关技术概述
    2.1 机器翻译概述
    2.2 机器翻译在中文分词中的应用原理
    2.3 Word2vec
    2.4 本章小结
3 中文分词模型设计
    3.1 设计思路
    3.2 CWSTransformer模型结构
    3.3 CWSTransformer分词过程
    3.4 本章小结
4 翻译与纠错方法实现
    4.1 问题描述
    4.2 基于循环修正策略的翻译分词方法
    4.3 循环修正分词优化
    4.4 本章小结
5 实验分析
    5.1 实验环境与数据集
    5.2 预处理和后处理
    5.3 实验方案
    5.4 实验结果分析
    5.5 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献
附录1 攻读学位期间发表的论文
附录2 攻读学位期间参与的主要项目


【参考文献】:
期刊论文
[1]词位标注汉语分词中特征模板定量研究[J]. 于江德,王希杰,樊孝忠.  计算机工程与设计. 2012(03)
[2]基于子词的双层CRFs中文分词[J]. 黄德根,焦世斗,周惠巍.  计算机研究与发展. 2010(05)
[3]中文分词算法概述[J]. 龙树全,赵正文,唐华.  电脑知识与技术. 2009(10)

硕士论文
[1]基于K最短路径的中文分词算法研究与实现[D]. 李兆福.哈尔滨工程大学 2009



本文编号:3718514

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3718514.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4af46***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com