基于转换表及上下文环境的汉语简繁文本双向翻译

发布时间:2017-09-17 06:53

  本文关键词:基于转换表及上下文环境的汉语简繁文本双向翻译


  更多相关文章: 简繁转换 简繁一对多转换 组合模型 SVM 最大熵 GIS ADMMR 特征选择


【摘要】:当前国际上使用的汉字包括简体字和繁体字两种形式,大陆和新加坡使用简体字,台湾、香港、澳门和部分海外华人使用繁体字。随着华人圈的交流日渐频繁,这种汉字的差异给交流带来了不少障碍。现有的简繁转换技术在处理简繁一对多转换方面效果不好,为了解决这一问题,作者提出了基于转换表和上下文的汉语简繁文本双向翻译方法。作者之前的研究工作在简繁评测中取得了95.6%的转换准确率,在此基础上将更深入研究一对多简体字转繁体字的转换消歧问题。一对多问题可以看成是一个分类问题,本文提出在简繁转换的一对多问题上使用规则加组合统计模型来解决,所组合的统计模型为SVM(支持向量机)、最大熵模型和贝叶斯模型。为了优化分类效果,作者提出了一种新的文本特征选择方法ADMMR,该方法的特征选择效果和期望交叉熵,卡方检验这两种特征选择方法相当,且经实验表明能够很好地表示文本,在使用同样分类模型的前提下ADMMR比信息增益方法的分类性能要好4%以上;同时提出最大熵模型的特征值使用tf-idf,而不使用0-1值,经过实验表明特征值使用tf-idf可以比使用0-1值的分类性能好2%;作者提出使用ADMMR、期望交叉熵和卡方检验作为文本的特征选择方法,使用tf-idf来量化每一个特征,再用SVM和最大熵模型学习训练数据,这样将得到六个分类模型,再使用贝叶斯模型学习训练数据得到第七个分类模型;前六个模型进行投票选择,获得票数最多的那个类别作为分类结果,如果得票最多的类有2个或2个以上则使用贝叶斯模型辅助判别。实验结果表明组合模型比单独使用SVM、最大熵模型或贝叶斯模型的分类效果都要好,且更稳定。简繁转换问题则采用规则加组合模型的方法:规则是根据词库来将一对多简体字根据词组转换到对应的繁体字;而对于不能成词的3%一对多简体字则采用组合模型;实验表明规则加组合模型的方法能够达到98.5%的准确率,较好地解决了简繁转换中的一对多转换问题。
【关键词】:简繁转换 简繁一对多转换 组合模型 SVM 最大熵 GIS ADMMR 特征选择
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.2
【目录】:
  • 摘要3-5
  • ABSTRACT5-11
  • 第一章 绪论11-14
  • 1.1 研究背景11
  • 1.2 研究目的11-12
  • 1.3 研究内容12
  • 1.4 研究成果12-13
  • 1.5 本文结构13-14
  • 第二章 相关研究14-26
  • 2.1 研究背景14-17
  • 2.1.1 建国后的汉字简化14-16
  • 2.1.2 汉字简化所引起的问题16-17
  • 2.2 简繁转换问题17-21
  • 2.2.1 一对多简繁关系17-19
  • 2.2.2 两岸术语词的差异19-21
  • 2.3 相关研究21-25
  • 2.4 本章小结25-26
  • 第三章 简繁转换流程及模型26-41
  • 3.1 简繁汉字转换流程26-27
  • 3.2 简繁汉字转换模型27-32
  • 3.2.1 一对多简繁分类组合模型28-29
  • 3.2.2 文本分词算法29-31
  • 3.2.3 文本分类算法31-32
  • 3.3 分类模型32-40
  • 3.3.1 SVM分类模型32-36
  • 3.3.2 最大熵分类模型36-39
  • 3.3.3Bayes分类模型39-40
  • 3.3.4 tf-idf40
  • 3.4 本章小结40-41
  • 第四章 特征选择算法41-47
  • 4.1 信息增益法(Information Gain)41-42
  • 4.2 期望交叉熵(Expected Cross Entropy)42
  • 4.3 互信息(Mutual Information)42-43
  • 4.4 χ~2检验法43-45
  • 4.5 文本证据权(The Weight of Evidence for Text)45-46
  • 4.6 ADMMR优势值 (Absolute Difference of Max-Min Ratios)46
  • 4.7 本章小结46-47
  • 第五章 数据准备47-52
  • 5.1 机器学习平行语料抽取47-50
  • 5.1.1 维基百科简介47-49
  • 5.1.2 Http Client与Html Parser49
  • 5.1.3 字词上下文抽取49-50
  • 5.2 简繁词库数据抽取50-51
  • 5.2.1 MDict及《台pcW 姙彮典》介绍50-51
  • 5.2.2 词典数据提取51
  • 5.3 本章小结51-52
  • 第六章 实验结果52-61
  • 6.1 ADMMR特征选择实验52-54
  • 6.2 最大熵模型之tf-idf54-55
  • 6.3 SVM、Max Ent以及Bayes组合模型55-58
  • 6.4 规则加组合统计模型实验58-60
  • 6.5 本章小结60-61
  • 第七章 总结61-62
  • 参考文献62-64
  • 致谢64-65
  • 附录A 攻读学位期间所发表的学术论文目录65-67

【参考文献】

中国期刊全文数据库 前9条

1 庞祯军;姚天f ;;基于对照表以及语义相关性之简繁汉字转换[J];计算机工程与应用;2015年04期

2 王立军;王晓明;吴健;;简繁对应关系与简繁转换[J];中文信息学报;2013年04期

3 汤吟菲;;《简化字总表》繁简字对应关系的注释说明[J];郧阳师范高等专科学校学报;2010年04期

4 郑国政;;基于现有软件进行中文简繁体转换的方法[J];电脑知识与技术(学术交流);2007年07期

5 王思力;张华平;王斌;;双数组Trie树算法优化及其应用研究[J];中文信息学报;2006年05期

6 傅永和;;汉字简化五十年回顾[J];中国语文;2005年06期

7 苏培成;“发”字的尴尬[J];语文建设;2001年12期

8 辛春生,孙玉芳;简繁汉字转换系统的设计与实现[J];软件学报;2000年11期

9 辛春生,孙玉芳;汉语简繁体转换与语词切分[J];小型微型计算机系统;2000年09期



本文编号:867909

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/867909.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户91919***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com