当前位置:主页 > 外语论文 > 小语种论文 >

汉语—泰语的跨语言查询翻译和扩展

发布时间:2020-06-09 20:47
【摘要】:近年来,随着中国和泰国关系的发展,两国之间在文化、经济、政治等各个方面的交流也不断深入。由于汉语和泰语属于两种不同的语言,为网络信息交流和沟通带来了很多的障碍。为了更好的分享互联网信息,促进中泰网络信息交流,跨语言信息检索技术的研究被提上了日程,它可以很好的解决此语言交流问题。为了提高汉语-泰语的跨语言信息检索的性能,本文研究了汉泰跨语言查询翻译和查询扩展。目前在汉-泰双语语言信息化研究方面,主要集中在泰语或汉语本身的词法、句法、及语义方面的研究,而专门针对汉语和泰语之间的信息处理方面,如汉语与泰语之间的机器翻译、查询扩展等方面的研究工作开展的工作还比较少。在汉语到泰语的翻译研究中,当前没有合适的双语词典作为翻译工具,而且很多未登录词和命名实体也无法用词典翻译,同时也容易产生翻译歧义的问题;由于没有合适的知识库作为扩展词的来源,对泰语扩展词的研究带来了一定的难度。针对以上问题,主要完成了以下研究工作:(1)基于Word2Vec的汉语查询语句的翻译方法针对汉语查询语句的翻译,本文提出了一种基于深度学习工具Word2Vec的汉泰翻译方法。该方法首先需要将汉泰可比语料库中的词,利用Word2Vec工具训练成词向量的形式,以此可以方便挖掘出汉语和泰语词与词之间的线性映射关系,此线性映射关系体现在将不同语言中,概念相似的词的词向量映射到向量空间中其空间分布是相似的。本文利用这种相似分布关系训练出汉泰的翻译矩阵,并通过翻译矩阵获取到泰语翻译候选词。(2)泰语翻译候选词的选取针对翻译歧义问题,本文利用汉语和泰语双语之间的词与词之间的翻译概率关系,结合单语词与词之间的关联关系,提出了一种泰语翻译候选词的筛选方法,用来消除翻译歧义并得到最优的翻译泰语词。(3)泰语查询扩展模型的构建为了提高检索系统的性能,本文提出了一种基于伪相关反馈法的泰语查询扩展方法。该方法的核心思想主要是应用Lucene检索技术检索返回相关文档集,并将返回的相关文档作为扩展词的来源,再利用将KL距离和词共现两种扩展技术通过Borda Count排序法相结合的方法,计算得出查询扩展词。最后,将扩展词添加到原查询语句中,最终可得到泰语查询扩展语句。(4)设计并实现汉泰跨语言查询翻译和扩展的原型系统,为进一步研究汉泰跨语言信息检索提供了平台,为以后的跨语言查询扩展的研究做好坚实的基础。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:H412

【相似文献】

相关会议论文 前10条

1 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年

2 吕碧波;赵军;;基于相关文档池建模的查询扩展[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 林建方;李生;郑德权;;基于词语搭配关系的查询扩展方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

5 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

6 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

7 王秉卿;张奇;吴立德;黄萱菁;;机器学习的查询扩展在博客检索中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

8 王秉卿;黄萱菁;;基于线性模型的查询扩展方法[A];第五届全国信息检索学术会议论文集[C];2009年

9 晋松;林鸿飞;苏绥;;基于标签共现的查询扩展研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

10 郭文;史晓东;陈毅东;;跨语言信息检索中的查询扩展[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

相关重要报纸文章 前1条

1 钟威 何拥军;数字档案信息扩展查询功能需求分析及实现方式[N];中国档案报;2011年

相关博士学位论文 前3条

1 郭晓黎;煤矿安全事件本体及其在查询扩展中的应用研究[D];中国矿业大学(北京);2016年

2 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年

3 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年

相关硕士学位论文 前10条

1 吴德钰;基于标签筛选的文档排序方法研究[D];华中师范大学;2015年

2 李维银;基于有监督学习的查询扩展技术研究[D];北京理工大学;2015年

3 钟廷伟;生物医学文本的标注与检索研究[D];电子科技大学;2015年

4 王宇;煤矿安全事件本体构建及其查询扩展的研究与应用[D];北京工业大学;2015年

5 崔倩倩;基于文档重构的查询扩展[D];北京工业大学;2015年

6 陈建荣;基于用户反馈的智能查询扩展技术研究[D];哈尔滨工业大学;2014年

7 燕泽权;基于主题模型的查询扩展技术研究[D];哈尔滨工业大学;2014年

8 郑永军;基于DMLS的语音关键词检测技术研究[D];解放军信息工程大学;2014年

9 李云飞;基于查询日志的动态查询扩展研究[D];内蒙古大学;2016年

10 杨振瑜;基于概念语义相似度的长句查询扩展研究[D];山东理工大学;2013年



本文编号:2705233

资料下载
论文发表

本文链接:https://www.wllwen.com/waiyulunwen/zhichangyingyu/2705233.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户db46d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com