蒙古语语料库标注及相关对策研究
本文关键词:蒙古语语料库标注及相关对策研究,由笔耕文化传播整理发布。
【摘要】: 目前语料库建设已经成为自然语言处理不可缺少的组成部分。语料库的发展趋势是作为重要的语言知识资源,为自然语言处理系统提供知识支持。蒙古语语料库建设从20世纪80年代开始,至今已经取得了一定的成绩,建立了若干个不同时期、不同文种、不同用途的语料库。但以往的语料库主要侧重于语言本体研究,而当今,用于自然语言深层处理时却遇到了很多问题,正面临扩大规模、深化加工等新的挑战。 为了使蒙古语语料库及其加工技术尽快达到或接近国内外较有影响的语料库标注深度,本文通过蒙古语语料库同国内外著名语料库进行了多层面上的比较,分析和探讨了目前在蒙古语语料库各级加工中存在的问题。并对26万词蒙古语语料库进行自动词法标注和手工后处理,详细分析了所遇到的问题,针对其中某些问题提出了解决方案。
【关键词】:语料库 蒙古语语料库 标注
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:H212
【目录】:
- 摘要6-7
- ABSTRACT7-10
- 第1章 序言10-24
- 1.1 课题的提出10-11
- 1.2 语料库的定义及其应用11-12
- 1.2.1 语料库的定义11
- 1.2.2 语料库在自然语言处理中的应用11-12
- 1.2.3 语料库在语言学研究领域的应用12
- 1.3 语料库的分类12-13
- 1.4 语料库的发展历史13-16
- 1.4.1 早期的语料库语言学14-15
- 1.4.2 乔姆斯基转换语法时期的语料库语言学15
- 1.4.3 语料库语言学的复苏时期15-16
- 1.5 国外几个典型语料库简介16-19
- 1.6 汉语语料库简介19-23
- 1.7 其他少数民族语料库简介23-24
- 第2章 蒙古语语料库的标注现状24-47
- 2.1 蒙古语语料库简介24-27
- 2.1.1 蒙古语单语语料库25-26
- 2.1.2 蒙古语双语语料库26-27
- 2.2 蒙古语语料库标注27-47
- 2.2.1 蒙古语词语识别27-31
- 2.2.2 蒙古语的词法标注31-35
- 2.2.3 蒙古语的词性标注35-40
- 2.2.4 蒙古语的句法标注40-44
- 2.2.4.2 蒙古语的句法标注41-44
- 2.2.5 蒙古语的词义标注44-47
- 2.2.5.1 词义标注概况44-47
- 2.2.5.2 蒙古语的词义标注47
- 第3章 对26万词级语料库进行词法标注时遇到的问题与解决的策略47-63
- 3.1 标注目的47-48
- 3.2 原语料库来源48-49
- 3.3 使用工具简介49-50
- 3.4 工作流程50-63
- 第4章 结束语63-64
- 参考文献64-67
- 附录167-71
- 附录271-72
- 附录372-73
- 致谢73
- 攻读硕士学位期间发表过的学术论文目录73
【相似文献】
中国期刊全文数据库 前10条
1 朱玉柱;;《仡佬语布央语语法标注话语材料集》出版[J];民族语文;2011年04期
2 张如梅;周锦国;;略谈叹词“喂”的读音[J];红河学院学报;2011年04期
3 ;刊稿格式[J];齐鲁文化研究;2010年00期
4 陈士平;;“纳延城”质疑[J];黑龙江史志;2011年16期
5 ;刊稿格式[J];齐鲁文化研究;2009年00期
6 ;《史学月刊》中文文献注释规范说明[J];史学月刊;2011年08期
7 Benjamin Carson;马莲;;为人父母之重[J];英语沙龙(时尚版);2010年05期
8 ;《马克思主义美学研究》投稿格式[J];马克思主义美学研究;2011年01期
9 徐涛;;《梅尧臣集编年校注》补正[J];图书馆杂志;2011年06期
10 李小山;;高校文学史教材中地名标注的订误——兼谈地名标注的规范化问题[J];教育教学论坛;2011年26期
中国重要会议论文全文数据库 前10条
1 张惠均;宋伟凯;吕玮;;MicroStation“检查标注”工具的制作[A];江苏省测绘学会2009年学术年会论文集[C];2009年
2 安娜;侯敏;;语料库中的插入语标注研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 安娜;侯敏;;基于传媒语言语料库的话语标记自动识别与消歧研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 于水;;关于俄汉机器翻译的几点个人看法[A];中国首届“海峡两岸俄语教学与研究学术讨论会”论文集[C];2005年
5 王彬;王依然;文采菊;周鑫;;基于标注语料库的《新闻联播》语言特征统计分析[A];第三届学生计算语言学研讨会论文集[C];2006年
6 卜爱萍;曾东京;;《新牛津英汉双解大词典》Usage对我们的启示[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
7 黄松芳;吴昊;高勤;吴玺宏;迟惠生;;汉语广播新闻语音的自动识别和标注[A];第八届全国人机语音通讯学术会议论文集[C];2005年
8 李妮;;从典型理论看词典中文体意义的标注方式[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
9 邢红兵;张旺熹;;现代汉语语法项目的标注及统计研究[A];对外汉语教学的全方位探索——对外汉语研究学术讨论会论文集[C];2004年
10 缪有栋;邱锡鹏;黄萱菁;;基于主动学习的中文问题类别标注研究[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 本报记者 游婕;商品“瘦身”后应显著标注净含量[N];中国消费者报;2011年
2 李占才;关于“周年”和“享年”的年份标注[N];中国集邮报;2009年
3 紫薇 海鸥 记者 吴采平;标注“100%全棉”实则含棉不足三成[N];中国消费者报;2011年
4 记者马永刚;济南市场饮料标注令人费解[N];中国食品报;2009年
5 洪忠基;诞辰纪念邮票上年份标注的位置值得推敲[N];中国集邮报;2010年
6 周菊;“可能含有”不全面包装标注必须清楚[N];中国质量报;2011年
7 记者 欧志葵 实习生 刘斯绮;联合利华食品标注惊现“莫须有”[N];南方日报;2011年
8 见习记者 郭钇杉;所有添加剂必须明显标注[N];中华工商时报;2011年
9 张建华;韩国拟对儿童食品实施特别标注[N];中国食品报;2010年
10 哈尔滨工业大学 赵丽莹;论文基金标注莫玩“一石三鸟”[N];科技日报;2010年
中国博士学位论文全文数据库 前10条
1 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
2 宣云干;基于潜在语义分析的社会化标注系统标签语义检索研究[D];南京大学;2011年
3 贾根莲;工程CAD中设计与分析计算统一模型的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
4 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
5 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
6 孙登第;基于随机点积图理论的模式识别方法研究[D];安徽大学;2012年
7 段曼妮;图像挖掘在图像检索中的应用[D];中国科学技术大学;2009年
8 陈伟;语音识别声学建模中的主动学习研究[D];北京邮电大学;2011年
9 陈伟;语音识别声学建模中的主动学习研究[D];北京邮电大学;2011年
10 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年
中国硕士学位论文全文数据库 前10条
1 牧仁高娃;蒙古语语料库标注及相关对策研究[D];内蒙古大学;2008年
2 王嵩;基于贝叶斯理论的社会化标注主题聚类模型研究[D];江苏科技大学;2011年
3 张辅红;袋装食品标签中日期标注方式的工效学研究[D];浙江理工大学;2012年
4 常勇;Deep Web数据集成系统中数据标注研究[D];河北大学;2009年
5 于辉;社会标注行为动力机制及其应用研究[D];大连理工大学;2012年
6 范自立;选择标注分层流形学习算法研究[D];苏州大学;2011年
7 吕红周;俄汉双语语料库语义范畴自动标注[D];黑龙江大学;2007年
8 李岩;基于大众标注的个性化推荐系统研究[D];东北师范大学;2011年
9 郭凤芹;惯用语与语文词典编纂[D];河北大学;2005年
10 红光;蒙古语语料库中汉语人名地名的拉丁转写[D];内蒙古师范大学;2009年
本文关键词:蒙古语语料库标注及相关对策研究,由笔耕文化传播整理发布。
,本文编号:361335
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/361335.html