面向维吾尔跨文字搜索引擎的统一转换机制设计
发布时间:2017-09-30 14:04
本文关键词:面向维吾尔跨文字搜索引擎的统一转换机制设计
【摘要】:随着近年互联网技术在新疆地区的发展和普及,大量维语网站如雨后春笋般涌现。由于历史原因,维文呈现老维文、新维文、拉丁维文、西里尔维文等多种字母体系共存的"一语多文"的特点。现有的维文搜索引擎仅支持老维文,然而,目前国际通行的主流维语交流字母体系以拉丁维文及西里尔维文居多。由此,如何设计支持维文"一语多文"特点的维文搜索引擎将是维文信息检索研究领域的重要挑战,其研制成果将对广大维族网民的日常互联网使用及国家的"一带一路"战略产生深远的影响。研究拉丁维文、西里尔维文和老维文之间的转换规则;提出Unicode字符编码体系和Unicode字符编码转换算法,实现在维语搜索引擎系统中通过拉丁维文和西里尔维文来直接检索老维文网页内容,弥补了当前维文搜索引擎系统的空白;通过翔实的实验,验证了所提的LCCU编码转换率达到100%,拉丁维文和西里尔维文的检索效果与老维文完全一致。
【作者单位】: 新疆财经大学计算机科学与工程学院;中央财经大学信息学院计算机系;
【关键词】: 维文信息检索 维文搜索引擎 跨文字转换机制
【基金】:新疆财经大学科研基金:维吾尔语言文字信息化进程研究(2014XYB006) 国家自然科学基金(61503422) 北京市社会科学基金(15JGC150)资助
【分类号】:TP391.3
【正文快照】: 本文受新疆财经大学科研基金:维吾尔语言文字信息化进程研究(2014XYB006),国家自然科学基金(61503422),北京市社会科学基金(15JGC150)资助。依不拉音·吾斯曼(1974-),男,硕士,讲师,主要研究方向为数据库应用与数据挖掘、自然语言处理,E-mail:1152390290@qq.com;王悦(1981-),男,
本文编号:948581
本文链接:https://www.wllwen.com/shekelunwen/ydyl/948581.html
最近更新
教材专著