维吾尔中介语语料库管理系统建设及自动标注技术研究
发布时间:2017-08-26 05:19
本文关键词:维吾尔中介语语料库管理系统建设及自动标注技术研究
更多相关文章: 维吾尔语 中介语 语料库建设 自动标注 语言模型
【摘要】:语料库在建设的过程中是一个浩大的工程。在针对已经建立好的一些语料库和中介语语料库中伴随的大量研究成果充分证明了它的重要性。构建过程中还需要不同层次专业人员的参与。因此维吾尔中介语语料库系统的实现,对提高维吾尔语教学质量及维吾尔语专业人才培养质量有深远的影响。本系统主要从三个方面进行了设计与研究:第一、针对维吾尔中介语语料库的构建提出了总体规划,包括对标注代码设计,数据采集的内容与范围进行了分析和采集;第二、利用基于Java EE设计开发了维吾尔中介语语料库管理系统,解决了维文、数字、英文字母与符号混排时格式错误问题,设计了维文JS输入包,用户无需安装第三方维文输入法,可以在本系统直接输入维文,顺利地完成对中介语语料的录入、审核、标注和检索等工作;第三、由于采集回来的语料信息繁多,在标注过程中需要人工进行标注,工作量巨大。为此,利用了两种方法对自动标注技术进行了研究,两种方法分别为:偏误词典库与字符串匹配的方法和语言模型训练的方法。目前,维吾尔中介语语料库系统经测试后已经开始投入使用,对自动标注方法也已经进行了测试,达到预期的目标。
【关键词】:维吾尔语 中介语 语料库建设 自动标注 语言模型
【学位授予单位】:新疆农业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:H215
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 绪论8-14
- 1.1 课题来源8
- 1.2 选题背景8
- 1.3 选题意义8-9
- 1.4 国内外研究现状9-11
- 1.5 维吾尔文知识11-12
- 1.6 本文研究内容12
- 1.7 论文的主要内容和组织结构12-14
- 第2章 维吾尔中介语语料库构建14-21
- 2.1 维吾尔中介语语料库规划15-16
- 2.2 维吾尔中介语语料库标注规范16-18
- 2.3 维吾尔中介语语料采集18-19
- 2.4 维吾尔中介语语料库系统的实现19-20
- 2.5 维吾尔中介语语料库系统的使用与维护20
- 2.6 本章小结20-21
- 第3章 维吾尔中介语语料库管理系统设计和实现21-44
- 3.1 维吾尔中介语语料库系统特点21-22
- 3.2 维吾尔中介语语料库系统工作流程22-23
- 3.3 维吾尔中介语语料库系统数据库设计23-32
- 3.4 维吾尔中介语语料库系统模块结构32-43
- 3.5 本章小结43-44
- 第4章 偏误自动标注技术研究44-62
- 4.1 基本原理44-45
- 4.2 人工标注的缺陷45
- 4.3 偏误词典库与字符串匹配实现的自动标注45-51
- 4.4 语言模型训练实现的自动标注51-61
- 4.5 本章小结61-62
- 第5章 总结与展望62-64
- 5.1 总结62
- 5.2 展望62-64
- 参考文献64-67
- 发表论文与参与科研情况67-68
- 个人简介68-70
- 致谢70
【参考文献】
中国期刊全文数据库 前10条
1 买吾浪江·艾依提;张太红;杨文革;;基于JAVAEE的维吾尔中介语语料库开发与实现[J];语言与翻译;2015年04期
2 陈昊;吐尔根·依布拉音;卡哈尔江·阿比的热西提;艾山·吾买尔;;基于众包的维吾尔语事件标注研究[J];新疆大学学报(自然科学版);2015年02期
3 张宝林;崔希亮;;谈汉语中介语语料库的建设标准[J];语言文字应用;2015年02期
4 买买提依明·哈斯木;吾守尔·斯拉木;维尼拉·木沙江;努尔麦麦提·尤鲁瓦斯;;基于N元模型的维吾尔文文本分类技术研究[J];计算机应用研究;2015年07期
5 肖奚强;周文华;;汉语中介语语料库标注的全面性及类别问题[J];世界汉语教学;2014年03期
6 阿力木江·艾沙;库尔班·吾布力;吐尔根·依布拉音;;维吾尔文Bigram文本特征提取[J];计算机工程与应用;2015年03期
7 杨文革;;建立维吾尔语中介语语料库基本设想[J];新疆大学学报(哲学·人文社会科学版);2013年03期
8 汪茂林;;国内语料库中介语研究现状分析[J];文教资料;2013年12期
9 阿力木江·艾沙;吐尔根·依布拉音;库尔班·吾布力;李哲;;基于短语的维吾尔文文本分类[J];计算机应用;2012年10期
10 翁莉佳;;国内外汉语语料库建设发展概述[J];海外英语;2012年03期
,本文编号:739893
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/739893.html