汉蒙跨语言检索系统设计与实现
发布时间:2020-01-21 20:41
【摘要】:[目的/意义]基于汉蒙间跨语言检索系统发展现状,设计并实现通过汉文、传统蒙古文关键词检索西里尔蒙古文文档的系统。[方法/过程]汉蒙跨语言检索系统包括机器翻译和文档检索。在机器翻译方面,实现了基于词典的汉文到西里尔蒙古文机器翻译,并实现了基于规则和统计的传统蒙古文到西里尔蒙古文转换;在文档检索方面,基于Lucene全文索引工具包对大量的西里尔蒙古文文档建立索引,并根据向量空间模型对查询和文档的相似度进行排序,得到与查询最为匹配的文档集。[结果/结论]本系统响应速度较快,准确率较高,达到可用水平。一方面促进中国与蒙古国之间的科技、文化、教育的交流;另一方面对我国西里尔蒙古文的研究有一定的促进作用。
【图文】:
煞绞剑嘹?以构成大规模的蒙古文单词,词典一般很难包含全部,所以基于词典和规则的方法有一定局限性。而统计模型的性能与语料库的规模、代表性、正确性以及加工深度有密切关系,其过分依赖语料库的质量。本文结合基于规则与统计相结合的方法,建立了高效的T2C转换系统。2.1基于规则的T2C转换方法西里尔蒙古文与传统蒙古文同属于黏着语,从单词的构造上均可以分为:词根、词干、附加成分。在形态学方面,其构词是以词根或词干为基础,后接词缀来派生新词和进行词形变化,而且变化复杂多样。基于规则的T2C转换流程如图1所示,主要分为3个步骤:首先,对输入的传统蒙古文进行后缀切分;其次,分别对切分后的词干及后缀部分根据规则转换成对应的西里尔蒙古文词干及后缀;最后,依据西里尔蒙古文构词规则将对应的西里尔蒙古文词干及后缀进行缀接得到西里尔蒙古文单词。图1基于规则的T2C转换流程传统蒙古文后缀切分比较复杂,会有元音及辅音的脱落、生成和变换等现象。本文依据传统蒙古文的词干后缀切分规则[13]进行切分。传统蒙古文与西里尔蒙古文的词干及后缀对应转换同样需要遵循相应的规则。其规则参考了T2C转换词干对照库(包含63501词条)[14-16]、动词后缀对照库(包含495条)[14-16]、静词后缀对照库(包含335条)[14-16]及对照规则库(包含130条对应规则)[14-16]。基于规则的T2C转换最后一步就是将第二步转换得到的西里尔蒙古文词干及后缀根据西里尔蒙古文构词规则进行缀接。由于在西里尔蒙古文构词时也会有元音及辅音的脱落、生成和变换等现象,本文根据西里尔蒙古文构词特点,依据西里尔蒙古文后缀缀接规则[17-18](共计30多条)完成西里尔蒙古文单词的合成。基于规则的T2C转换对于集内词的?
q∈S(g,φ')∏K+1j-1p(qj|qj-1…qj-N+1)(5)本文使用最大似然估计法,得到相应参数,并使用Kneser-Ney平滑算法来做数据平滑。基于统计模型的单词级T2C可以很好地解决对集外词的转换。2.3基于规则与统计相结合的T2C转换方法T2C转换系统框架如图2所示:首先,对输入的传统蒙古文预处理;其次,使用基于规则的方法完成单词级T2C的转换,转换不成功的单词则使用统计模型的方法对其进行转换;最后,通过语言模型选择词序列,T2C转换会有单词一对多的情况,,需要使用语言模型进行选择最优词序列。图2T2C转换系统流程图3索引和检索在上述CH2C、T2C翻译模型的基础上,为了能够高效地实现汉蒙跨语言检索,本文采用Lucene工具对西里尔蒙古文文档构建索引。3.1基于Lucene的索引建立方法语料库中的西里尔蒙古文文档属于没有定长并且格式不固定的非结构化数据,采用顺序扫描的方法对非结构化的数据进行检索效率非常低。为了提高文档的检索效率,首先要为西里尔蒙古文文档集创建索引。Lucene采用倒排索引结构建立索引。其索引创建流程如图3所示。主要分为3个步骤:首先,将西里尔蒙古文文档传给分词器,进行分词,去除标点符号,去除停词(如:юм,шYY)等预处理工作;其次,将得到的单词进行形态学处理,获得西里尔蒙古文单词对应的词干;最后,将处理后的单词构建索引表。图3西里尔蒙古文文档索引创建过程3.2基于Lucene的检索方法索引建立完成后,利用向量空间模型[21],将查询关键词和文档都表示成为向量。文档和查询关键词之间的相似度通过向量夹角的余弦值表示。在检索时,假设经过翻译或转换得到的西里尔蒙古文查询关键词为Q,文档集合为D(D1,D2,…,Dn),则检索的过程可以描述?
【图文】:
煞绞剑嘹?以构成大规模的蒙古文单词,词典一般很难包含全部,所以基于词典和规则的方法有一定局限性。而统计模型的性能与语料库的规模、代表性、正确性以及加工深度有密切关系,其过分依赖语料库的质量。本文结合基于规则与统计相结合的方法,建立了高效的T2C转换系统。2.1基于规则的T2C转换方法西里尔蒙古文与传统蒙古文同属于黏着语,从单词的构造上均可以分为:词根、词干、附加成分。在形态学方面,其构词是以词根或词干为基础,后接词缀来派生新词和进行词形变化,而且变化复杂多样。基于规则的T2C转换流程如图1所示,主要分为3个步骤:首先,对输入的传统蒙古文进行后缀切分;其次,分别对切分后的词干及后缀部分根据规则转换成对应的西里尔蒙古文词干及后缀;最后,依据西里尔蒙古文构词规则将对应的西里尔蒙古文词干及后缀进行缀接得到西里尔蒙古文单词。图1基于规则的T2C转换流程传统蒙古文后缀切分比较复杂,会有元音及辅音的脱落、生成和变换等现象。本文依据传统蒙古文的词干后缀切分规则[13]进行切分。传统蒙古文与西里尔蒙古文的词干及后缀对应转换同样需要遵循相应的规则。其规则参考了T2C转换词干对照库(包含63501词条)[14-16]、动词后缀对照库(包含495条)[14-16]、静词后缀对照库(包含335条)[14-16]及对照规则库(包含130条对应规则)[14-16]。基于规则的T2C转换最后一步就是将第二步转换得到的西里尔蒙古文词干及后缀根据西里尔蒙古文构词规则进行缀接。由于在西里尔蒙古文构词时也会有元音及辅音的脱落、生成和变换等现象,本文根据西里尔蒙古文构词特点,依据西里尔蒙古文后缀缀接规则[17-18](共计30多条)完成西里尔蒙古文单词的合成。基于规则的T2C转换对于集内词的?
q∈S(g,φ')∏K+1j-1p(qj|qj-1…qj-N+1)(5)本文使用最大似然估计法,得到相应参数,并使用Kneser-Ney平滑算法来做数据平滑。基于统计模型的单词级T2C可以很好地解决对集外词的转换。2.3基于规则与统计相结合的T2C转换方法T2C转换系统框架如图2所示:首先,对输入的传统蒙古文预处理;其次,使用基于规则的方法完成单词级T2C的转换,转换不成功的单词则使用统计模型的方法对其进行转换;最后,通过语言模型选择词序列,T2C转换会有单词一对多的情况,,需要使用语言模型进行选择最优词序列。图2T2C转换系统流程图3索引和检索在上述CH2C、T2C翻译模型的基础上,为了能够高效地实现汉蒙跨语言检索,本文采用Lucene工具对西里尔蒙古文文档构建索引。3.1基于Lucene的索引建立方法语料库中的西里尔蒙古文文档属于没有定长并且格式不固定的非结构化数据,采用顺序扫描的方法对非结构化的数据进行检索效率非常低。为了提高文档的检索效率,首先要为西里尔蒙古文文档集创建索引。Lucene采用倒排索引结构建立索引。其索引创建流程如图3所示。主要分为3个步骤:首先,将西里尔蒙古文文档传给分词器,进行分词,去除标点符号,去除停词(如:юм,шYY)等预处理工作;其次,将得到的单词进行形态学处理,获得西里尔蒙古文单词对应的词干;最后,将处理后的单词构建索引表。图3西里尔蒙古文文档索引创建过程3.2基于Lucene的检索方法索引建立完成后,利用向量空间模型[21],将查询关键词和文档都表示成为向量。文档和查询关键词之间的相似度通过向量夹角的余弦值表示。在检索时,假设经过翻译或转换得到的西里尔蒙古文查询关键词为Q,文档集合为D(D1,D2,…,Dn),则检索的过程可以描述?
【参考文献】
相关期刊论文 前3条
1 飞龙;高光来;闫学亮;魏宏喜;;传统蒙古文与西里尔蒙古文相互转换方法的研究[J];计算机工程与应用;2014年23期
2 高红霞;马小蕾;;西里尔蒙古文网页向传统蒙古文自动转换系统的文字转换研究[J];内蒙古民族大学学报;2012年05期
3 张sソ
本文编号:2571716
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2571716.html