基于N-gram的维、哈、柯文网页文种识别研究
发布时间:2017-04-03 07:07
本文关键词:基于N-gram的维、哈、柯文网页文种识别研究,,由笔耕文化传播整理发布。
【摘要】:文种识别(Language Identification,简称LID)是一种识别已用于书写各种类型的文档的预定义的语言的过程,经常被用作机器翻译,分类,搜索,信息检索中的文本处理系统的第一步。在我们做诸如生成词典,配置文件,停用词列表等一系列相关工作之前需要知道给定文本的语言类别。维吾尔文、哈萨克文和柯尔克孜文(简称维、哈、柯文)是新疆少数民族最常使用的三种语言,三者同属阿尔泰语系突厥语族,属黏着型语言,单词的形态变化十分丰富,导致使用者难以避免拼写和语法错误。基于上述情况,本文使用了基于N-gram的三种方法对维、哈、柯文网页的文种识别进行研究,因为基于N-gram的方法是可靠的,对拼写错误、语法错误和其它各种文本错误的容错能力强,无需了解语言相关知识。本文从互联网上提取2512篇维吾尔文,2137篇哈萨克文,1274篇柯尔克孜文网页文本文档,均以.txt文本格式进行保存,形成了原始的语料集。之后大致按照2:1的比例将这三种语言的语料集分成了训练集和测试集两部分,分别选用N=2,3,4,5项,使用频率统计方法构建了每种语言的N-gram特征库。使用了基于距离测量的ONG方法,基于布尔匹配的MNG方法,以及同时使用了N-gram频率和N-gram位置的ING方法,分别选取了这三种语言N-gram特征库中的前100,200,300,400,500个特征进行了维、哈、柯文网页文种识别实验,并使用精度、召回率和F1方法评估了这三种方法的有效性。实验结果表明,MNG方法对三种语言的识别性能最佳,ING方法次之,ONG方法识别效果最差。整体来说,参数N=2时,三种方法的识别效果都是最好的,且三种方法均对维文的识别性能最好,哈文次之,对柯文的识别最差。基于上述工作,本文设计并实现了一个基于N-gram的维、哈、柯文网页文种识别系统。
【关键词】:维吾尔文、哈萨克文、柯尔克孜文 网页文种识别 N-gram方法
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
本文关键词:基于N-gram的维、哈、柯文网页文种识别研究,由笔耕文化传播整理发布。
本文编号:283898
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/283898.html