当前位置:主页 > 文艺论文 > 语言学论文 >

文言文翻译及阅读理解关键技术的研究

发布时间:2017-08-15 10:22

  本文关键词:文言文翻译及阅读理解关键技术的研究


  更多相关文章: 正文提取 句子对齐 古汉语翻译 阅读理解


【摘要】:在漫长的历史长河中,古汉语书写的典籍汗牛充栋。近年来,统计机器翻译技术得到了很大发展。Moses等开源的翻译工具只需要双语平行句对即可训练出翻译系统。同时,其他自然语言处理技术的发展更是激励着人们解决现实的人工智能问题。本课题的目的在于探索文言文翻译及阅读理解答题的关键技术。为了解决这个任务,我们的研究包含以下几个方面。(1)古汉语现代汉语平行语料库的获取和加工。本文利用互联网上存在的古汉语现代汉语平行网页获取古汉语现代汉语平行语料库。本文将平行语料的获取分为两个阶段,第一个阶段是获取网页正文,第二个阶段是句子对齐。通过对基于DOM树的文本密度的方法进行改进,我们提出基于DOM树的标点密度的方法。在获取古汉语现代汉语网页正文时,我们的方法F值得到了一定的提升。在句子对齐时,我们引入句子长度、匹配模式、同源率,使用对数线性模型对句子得分进行建模。通过不同的框架,我们引入了10个同源率。和基于长度的句子对齐方法相比,我们的方法使结果得到了较大的提升。(2)基于Moses的古汉语和现代汉语翻译系统的优化。本文在获取了古汉语现代汉语平行句对后,对翻译系统的优化进行研究。我们使用Moses从语言模型和翻译模型两个方面进行优化。在语言模型方面,我们从语料、平滑方法、模型混合等方面进行分析。在翻译模型方面,我们考虑分词对翻译模型的影响。我们的方法使翻译系统性能得到了较大幅度的提升。(3)文言文阅读理解答题技术的研究。对选中的三类题进行答题技术的研究。将选项准确性抽象为某种相似度,最后依据相似度的大小确定答案。对于翻译辨析题和概括分析题,依据词袋、最长公共子串、编辑距离、余弦相似度、N-gram等设计了24种相似度。对于词意辨析,依据词袋、短语翻译表、词意相似度等设计了7种相似度。使用相似度答题取得了不错的答题准确率。对于词意辨析题,依据相似度获取了8个特征,使用svm-rank进行三重交叉校验,得到了更高的答题准确率。
【关键词】:正文提取 句子对齐 古汉语翻译 阅读理解
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:H085
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第1章 绪论9-18
  • 1.1 本文的研究背景和意义9-10
  • 1.2 国内外研究现状10-16
  • 1.2.1 正文提取技术10-13
  • 1.2.2 句子对齐技术13-14
  • 1.2.3 机器翻译技术14-15
  • 1.2.4 阅读理解答题技术15-16
  • 1.3 研究内容及章节安排16-18
  • 第2章 古汉语现代汉语平行语料库的获取和加工18-32
  • 2.1 引言18
  • 2.2 古汉语现代汉语网页的获取和分析18-20
  • 2.2.1 古汉语现代汉语网页的获取19-20
  • 2.2.2 文言文资源的分析20
  • 2.3 基于DO M树的标点密度的正文提取20-27
  • 2.3.1 DO M介绍20-21
  • 2.3.2 文本密度21-22
  • 2.3.3 复杂文本密度22-23
  • 2.3.4 标点密度23-24
  • 2.3.5 密度和24
  • 2.3.6 阈值及正文提取算法24-25
  • 2.3.7 正文提取实验结果和分析25-27
  • 2.4 多特征融合的古汉语现代汉语的句子对齐27-31
  • 2.4.1 长度特征27-28
  • 2.4.2 匹配模式特征28
  • 2.4.3 同源词特征28-29
  • 2.4.4 多特征融合的句对得分29-30
  • 2.4.5 句子对齐实验结果和分析30-31
  • 2.5 本章小结31-32
  • 第3章 基于MOSES的古汉语现代汉语翻译系统的优化32-39
  • 3.1 引言32-33
  • 3.2 语言模型的优化33-36
  • 3.2.1 语言模型介绍33
  • 3.2.2 多种目标语料的语言模型33-34
  • 3.2.3 混合语言模型34-36
  • 3.2.4 实验结果和分析36
  • 3.3 翻译模型的优化36-38
  • 3.3.1 字-字翻译模型36-37
  • 3.3.2 字-词翻译模型37
  • 3.3.3 字-字词混合翻译模型37
  • 3.3.4 词-词翻译模型37-38
  • 3.3.5 实验结果和分析38
  • 3.4 本章小结38-39
  • 第4章 高考语文文言文阅读理解答题技术的研究39-51
  • 4.1 高考语文文言文阅读理解题型调研39-43
  • 4.1.1 阅读理解答题介绍41-42
  • 4.1.2 文言文阅读理解的特殊性42-43
  • 4.1.3 三类题的一般性分析43
  • 4.2 实验数据及实验评价标准43-44
  • 4.3 三类题的答题技术研究44-50
  • 4.3.1 翻译辨析题答题技术的研究44-48
  • 4.3.2 词意辨析题答题技术的研究48-49
  • 4.3.3 概括分析题答题技术的研究49
  • 4.3.4 实验结果对比分析49-50
  • 4.4 本章小结50-51
  • 结论51-53
  • 参考文献53-59
  • 攻读硕士学位期间发表的论文59-61
  • 致谢61

【相似文献】

中国期刊全文数据库 前10条

1 焦红波,车玉晓;从翻译系统理论看《汤姆叔叔的小屋》的不同译本[J];华北水利水电学院学报(社科版);2005年04期

2 T.W.卡尔弗特 ,J.A.兰迪斯 ,J.查普曼 ,刘建一;计算机与舞谱[J];文艺研究;1985年06期

3 王尔康;采用世界语的翻译系统[J];上海科技翻译;1987年06期

4 冯志伟;网络翻译系统市场潜力很大[J];中文信息;1997年06期

5 王树槐;翻译系统中信息传播的优化──兼论两级翻译学的建立[J];华中理工大学学报(社会科学版);1999年01期

6 范;;《雅信译霸英汉翻译系统98》[J];科技潮;1998年07期

7 姜一平;;美国电脑翻译研究现状[J];国外语言学;1986年02期

8 长尾真;杨平;;自动翻译[J];计算机科学;1985年02期

9 幼秧;“石油科技文献计算机翻译系统研究”获得成功[J];中国科技翻译;1999年03期

10 张俐,李晶皎,赵欣,王宝库;开放式满汉辅助翻译系统的研究和实现[J];东北大学学报;1999年06期

中国重要会议论文全文数据库 前8条

1 苏牧;余胜民;韩兆滨;张树武;徐波;;一种基于电话的中英双向翻译系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

2 曾华琳;李堂秋;曹冬林;;机器辅助翻译系统用词典的管理[A];第二届全国学生计算语言学研讨会论文集[C];2004年

3 潘治文;李怡平;;一个基于语料库的葡中翻译系统[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年

4 谭咏梅;王枞;王小捷;钟义信;;基于实例的机器辅助写作翻译系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

5 吐尔根.依布拉音;艾尔肯.伊米尔;阿布力米提.阿不都热依木;;基于翻译记忆库与基于规则的汉维-维汉机器辅助翻译系统方法与框架研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

6 谢晓方;乔勇军;;基于增强现实技术的翻译系统建模技术研究[A];第五届全国仿真器学术会论文集[C];2004年

7 方李成;宗成庆;;基于层次短语的统计翻译系统中规则冗余的高效约束方法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

8 陈振标;黄泰翼;徐波;;语音翻译中的口音建模与处理[A];第六届全国人机语音通讯学术会议论文集[C];2001年

中国重要报纸全文数据库 前6条

1 杨文利;中国口语翻译系统在国际评测中夺魁[N];中国高新技术产业导报;2007年

2 李大庆;CASIA口语翻译系统在国际评测中夺魁[N];科技日报;2007年

3 ;轻松跨越语言障碍[N];中国电脑教育报;2004年

4 冯沙;俄汉智能辅助翻译系统问世[N];科技日报;2002年

5 记者 王艳红;德推出同步口语翻译系统[N];新华每日电讯;2001年

6 L&H公司高级副总裁及亚太区总裁 胡国辉博士;自然语言技术支持新一代语音上网[N];中国计算机报;2000年

中国博士学位论文全文数据库 前2条

1 姜海涛;内核级二进制翻译系统设计及性能优化[D];中国科学技术大学;2013年

2 马湘宁;二进制翻译关键技术研究[D];中国科学院研究生院(计算技术研究所);2004年

中国硕士学位论文全文数据库 前10条

1 柳贤花;古典汉文翻译系统标准化方案研究[D];延边大学;2012年

2 陆少斌;口语翻译系统[D];北京工业大学;2003年

3 徐帆;软硬协同动态二进制翻译系统设计与实现[D];国防科学技术大学;2010年

4 李晓龙;基于多核平台的多线程动态二进制翻译系统优化框架[D];上海交通大学;2010年

5 吴浩;二进制翻译系统QEMU的优化技术[D];上海交通大学;2007年

6 车玉晓;从Uncle Tom's Cabin的不同译本看翻译系统理论[D];郑州大学;2005年

7 马舒兰;动态二进制翻译中的TCache的设计与实现[D];上海交通大学;2008年

8 王清;基于Globish的规范子集英汉翻译系统研究[D];上海师范大学;2008年

9 衡良;基于神经网络的数字化工艺设计卡片翻译系统研究[D];四川大学;2006年

10 屈庆琳;嵌入式语音翻译系统的研究[D];安徽理工大学;2012年



本文编号:677666

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/677666.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户81522***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com