蒙古文语料编码转换与校对方法研究
发布时间:2021-01-05 23:37
如今信息现代化的时代,信息的传播、资源的共享也都被电子化、网络化。大部分信息都是以文字形式传播和共享。对蒙古文信息而言适应信息时代发展要求是必然的。随着蒙古文信息处理的发展出现了多种蒙古文编码,例如赛音、蒙科立、明安图、智能编码等。各种编码字库中,蒙古文字形的对应的编码都不一样,互不兼容,如果没有安装对应的蒙古文字库,计算机里的蒙古文资料将显示为乱码,不能使用。这样会导致蒙古文信息资源无法传播、共享和研究。解决这些问题的最有效方法就是编码转换,转换成统一的编码。本文由蒙古文编码转换和编码校对两大部分构成。编码转换部分中,首先对目前应用较广泛的两种编码-蒙科立编码、智能编码以及蒙古文国际标准编码进行了详细的分析和对比。其次将蒙科立编码、智能编码两种编码转换为蒙古文国际标准编码。编码转换为基于蒙古文变形显现字符集和控制字符使用规则的一种转换方法。编码转换过程中,先通过编码范围判断和编码在词中不同位置的词形判断编码类型。编码类型确定之后,如果是蒙科立编码则用蒙科立编码转换为标准码的算法将其转换为标准编码。如果是智能编码,则用智能编码转换为标准编码的算法将其转换为标准编码。非标准蒙古文编码,例...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
蒙古文国际标准码名义字符表
图 3. 2 蒙科立编码的 ACCESS 部分数据库Fig 3.2 Access database of Menk coding好编码范围后,需要应用规则去判断编码和其词中的位置是否正确。即从格中判断词首、词中、词末、独立形式的哪个。其关键实现算法如下:变量c在词中的哪个位置值:‘W’为独立形、‘T’为词首形、‘D’为词中形、‘R’为词末形 char GetMenkPos(char c)/链接Access数据库leDbConnection oleDbConnection = newleDbConnection("Provider=Microsoft.Jet.OLEDB.4.0;Data Source=E:\\menk.mleDbConnection conn = oleDbConnection;
图 3. 3 蒙科立编码转换结果图Fig 3.3 Results for converting menk codesto the ISO/IEC10646 Mongolian codes智能编码转换到标准编码.1 智能编码的词中位置判断判断智能编码算法第一步是设计存储智能编码的 ACCESS 数据库。表里存储当前形式、词中形式、词末形式或独立形式的判断结果,yuanfu 列存储字符是元音还是a 列里存储字符的智能编码。表格中的 weizhi 列里的 W 为独立形式,T 为词首形中形式,R 为词末形式。部分数据表如下图 3.4。
本文编号:2959502
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
蒙古文国际标准码名义字符表
图 3. 2 蒙科立编码的 ACCESS 部分数据库Fig 3.2 Access database of Menk coding好编码范围后,需要应用规则去判断编码和其词中的位置是否正确。即从格中判断词首、词中、词末、独立形式的哪个。其关键实现算法如下:变量c在词中的哪个位置值:‘W’为独立形、‘T’为词首形、‘D’为词中形、‘R’为词末形 char GetMenkPos(char c)/链接Access数据库leDbConnection oleDbConnection = newleDbConnection("Provider=Microsoft.Jet.OLEDB.4.0;Data Source=E:\\menk.mleDbConnection conn = oleDbConnection;
图 3. 3 蒙科立编码转换结果图Fig 3.3 Results for converting menk codesto the ISO/IEC10646 Mongolian codes智能编码转换到标准编码.1 智能编码的词中位置判断判断智能编码算法第一步是设计存储智能编码的 ACCESS 数据库。表里存储当前形式、词中形式、词末形式或独立形式的判断结果,yuanfu 列存储字符是元音还是a 列里存储字符的智能编码。表格中的 weizhi 列里的 W 为独立形式,T 为词首形中形式,R 为词末形式。部分数据表如下图 3.4。
本文编号:2959502
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/2959502.html