以泰语为枢轴的老—汉双语语料库构建方法研究
发布时间:2022-01-22 11:58
老-汉双语语料库是开展汉-老机器翻译及跨语言检索的重要数据资源,老挝语是东南亚语言中资源较为稀缺的语言,老-汉双语平行资源较为稀缺,直接从互联网上获取老-汉双语平行资源存在较大困难。老挝语、泰语是较为相似的语言,汉-泰双语资源相对较丰富,为此,论文利用泰语、老挝语语言相似的特点,提出一种以泰语为枢轴语言的老-汉双语平行语料库构建方法,实验证明提出的方法对老-汉双语语料库的构建具有一定的理论意义和实际应用价值。论文的研究工作主要体现在以下几个方面:1.利用网络爬虫技术从汉-泰双语新闻网站、维基百科、汉-泰双语学习网站自动获取了一定规模的汉-泰双语平行语料库,并通过人工的方式对数据进行校对,构建了汉-泰双语句子对齐语料库及老-泰双语句子对齐语料库,分析了老挝语、泰语在构词、读音、句法等方面的语言相似性和差异性。2.提出了一种以泰语为枢轴语言的老-汉双语语料库构建方法,该方法首先从已构建的汉-泰双语句子对齐语料库中选取泰语句子,利用老-泰双语词典将泰语句子翻译成老挝语对应的词序列作为候选的老挝语句子,然后通过训练老挝语神经语言模型对候选的老挝语句子进行校正,最后利用卷积网络和双向LSTM构建...
【文章来源】:昆明理工大学云南省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
泰语字体编码表
昆明理工大学硕士学位论文6大多数泰语元音符号都是由全字母大小的内联字形呈现的,这些字形要么位于基辅音字母的字形之前(即左侧)、之后(即右侧),要么位于字形周围(位于两侧)。在泰语编码中,字母大小的字形放在基本辅音字母前(左边),以元音符号的整体或部分表示,实际上是作为单独的字符编码的,这些字符被键入并存储在基本辅音字符前。这种对泰国左边元音符号符号的编码(老挝语和泰越语也类似)与所有其他印度语脚本的约定不同,后者统一地在基本辅音之后编码所有元音。这种差异是由泰国工业标准中常用的泰文字符数据编码实践造成的。老挝的语言和文字与泰国有着密切的关系。Unicode标准对老挝文字与泰国文字的相对顺序大致相同。在Unicode12.0版中的编码是从0E80–0EFF,如图2-2所示,是老挝语的字母编码表示意图,从0E80开始,到0EFF结束。图2.2老挝语字体编码图图中红色标注的则为在老挝语中的字符和泰语中字符基本相似的,与泰语不同的是,老挝语的辅音字母被认为仅仅代表辅音,而不是带有固有元音的音节。
汉语新闻网站
【参考文献】:
期刊论文
[1]“一带一路”背景下非通用语言战略构建研究[J]. 孙建光,王宇星. 遵义师范学院学报. 2019(01)
[2]濒危语言与汉语平行语料库动态构建技术研究[J]. 于重重,曹帅,张青川,尹蔚彬,孙沁瑶,刘畅. 计算机应用与软件. 2018(09)
[3]老挝语陈述语句句末语气词初探[J]. 武智. 汉字文化. 2018(15)
[4]汉语和老挝语句法比较研究[J]. 翁帕松. 汉字文化. 2018(03)
[5]“一带一路”建设需要语言铺路搭桥[J]. 陆俭明. 文化软实力研究. 2016(02)
[6]“一带一路”需要语言铺路[J]. 李宇明. 中国科技术语. 2015(06)
[7]双语语料库构建研究综述[J]. 庞伟. 信息技术与信息化. 2015(03)
[8]国内老挝语研究综述[J]. 银莎格. 铜仁学院学报. 2014(01)
[9]面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J]. 才让加. 中文信息学报. 2011(06)
[10]汉、英平行语料库的研究与构建[J]. 徐春. 科技信息. 2011(17)
博士论文
[1]中日双语平行语料库的自动构建技术研究[D]. 尹存燕.南京大学 2012
硕士论文
[1]老—汉双语语料库系统构建研究[D]. 博恩(SISOUMANG BOUANGEUN).昆明理工大学 2018
[2]汉—老双语词语对齐及依存树库构建方法研究[D]. 殷若尘.昆明理工大学 2017
[3]基于LSTM的英文文本蕴含识别方法研究[D]. 刘阳.哈尔滨工业大学 2016
[4]基于Web的大规模平行语料库构建方法研究[D]. 冯艳卉.苏州大学 2012
[5]Web双语平行语料自动获取及其在统计机器翻译中的应用[D]. 林政.天津师范大学 2010
本文编号:3602158
【文章来源】:昆明理工大学云南省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
泰语字体编码表
昆明理工大学硕士学位论文6大多数泰语元音符号都是由全字母大小的内联字形呈现的,这些字形要么位于基辅音字母的字形之前(即左侧)、之后(即右侧),要么位于字形周围(位于两侧)。在泰语编码中,字母大小的字形放在基本辅音字母前(左边),以元音符号的整体或部分表示,实际上是作为单独的字符编码的,这些字符被键入并存储在基本辅音字符前。这种对泰国左边元音符号符号的编码(老挝语和泰越语也类似)与所有其他印度语脚本的约定不同,后者统一地在基本辅音之后编码所有元音。这种差异是由泰国工业标准中常用的泰文字符数据编码实践造成的。老挝的语言和文字与泰国有着密切的关系。Unicode标准对老挝文字与泰国文字的相对顺序大致相同。在Unicode12.0版中的编码是从0E80–0EFF,如图2-2所示,是老挝语的字母编码表示意图,从0E80开始,到0EFF结束。图2.2老挝语字体编码图图中红色标注的则为在老挝语中的字符和泰语中字符基本相似的,与泰语不同的是,老挝语的辅音字母被认为仅仅代表辅音,而不是带有固有元音的音节。
汉语新闻网站
【参考文献】:
期刊论文
[1]“一带一路”背景下非通用语言战略构建研究[J]. 孙建光,王宇星. 遵义师范学院学报. 2019(01)
[2]濒危语言与汉语平行语料库动态构建技术研究[J]. 于重重,曹帅,张青川,尹蔚彬,孙沁瑶,刘畅. 计算机应用与软件. 2018(09)
[3]老挝语陈述语句句末语气词初探[J]. 武智. 汉字文化. 2018(15)
[4]汉语和老挝语句法比较研究[J]. 翁帕松. 汉字文化. 2018(03)
[5]“一带一路”建设需要语言铺路搭桥[J]. 陆俭明. 文化软实力研究. 2016(02)
[6]“一带一路”需要语言铺路[J]. 李宇明. 中国科技术语. 2015(06)
[7]双语语料库构建研究综述[J]. 庞伟. 信息技术与信息化. 2015(03)
[8]国内老挝语研究综述[J]. 银莎格. 铜仁学院学报. 2014(01)
[9]面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J]. 才让加. 中文信息学报. 2011(06)
[10]汉、英平行语料库的研究与构建[J]. 徐春. 科技信息. 2011(17)
博士论文
[1]中日双语平行语料库的自动构建技术研究[D]. 尹存燕.南京大学 2012
硕士论文
[1]老—汉双语语料库系统构建研究[D]. 博恩(SISOUMANG BOUANGEUN).昆明理工大学 2018
[2]汉—老双语词语对齐及依存树库构建方法研究[D]. 殷若尘.昆明理工大学 2017
[3]基于LSTM的英文文本蕴含识别方法研究[D]. 刘阳.哈尔滨工业大学 2016
[4]基于Web的大规模平行语料库构建方法研究[D]. 冯艳卉.苏州大学 2012
[5]Web双语平行语料自动获取及其在统计机器翻译中的应用[D]. 林政.天津师范大学 2010
本文编号:3602158
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3602158.html