基于《说不完的故事》语料库的藏文短语分析研究
本文关键词:基于《说不完的故事》语料库的藏文短语分析研究
更多相关文章: 藏文短语 信息库 说不完的故事 藏文信息处理
【摘要】:要让计算机来识别藏文短语,则首要的条件是人类先要找出藏文短语的语法规则。凭借着这些规则从真实语料当中找到并提取和分析藏文短语,这样才能计算机识别藏文短语。藏族经典民间文学《说不完的故事》中的序言及十一篇短片故事集作为本文的语料,采用多拉教授的藏文词性标记集为标注依据,以藏语语法对短语的理论前提选定藏文句子并应用直接成分法对语料中的藏文短语进行人工括号标注。这些序言及其十一篇短片故事集中共有7777个藏文短语分为九个类型,分别为名词短语、动词短语、形容词短语、数量短语、副词性短语、时间性短语、特殊短语、谚语和习语。这些藏文短语,从计量、模型、内部结构、外部结构、句法成分,语义角色等六个方面进行分析,最终建立了藏文短语的信息库。本信息库中的1657个名词短语,按结构模型分为六种结构模型;按内部结构分为主格结构、主虚结构、宾格结构、同位结构、并列结构、中定结构和复指结构;按外部结构分为名词性短语和准名词性短语,在句子里充当主语和宾语。其中包含的4270个动词短语按结构模型分为五种结构模型;按内部结构分为状中结构、宾动结构、主谓结构、并列结构和中补结构;按外部结构分为动词性短语和准动词性短语,在句子里充当谓语。包含的347个形容词短语按结构模型分为八种结构模型;按内部结构分为状中结构、宾动结构、主谓结构、并列结构、中补结构和中定结构;按外部结构分为动词性短语、形容词性短语和名词性短语在句子可以充当主语、谓语和宾语。包含的656个数量短语按结构模型分为六种结构模型;按内部结构分为并列结构和中定结构;按外部结构分为数量性短语和名词性短语。包含的287个副词性短语按结构模型分为八种结构模型;按内部结构分为状格结构和并列结构,在句子里充当状语。包含的316个时间性短语按结构模型分为十种结构模型;按内部结构分为复指结构、定中结构和中定结构,在句子里充当时间状语。包含的201个特殊短语,按结构模型分为四种结构模型,其余包含了16个谚语和27个习语。
【关键词】:藏文短语 信息库 说不完的故事 藏文信息处理
【学位授予单位】:西北民族大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:H214
【目录】:
- 中文摘要3-4
- Abstract4-5
- 摘要5-8
- 序言8-12
- 1.1 国内研究现状8-9
- 1.2 选题目的及意义9-10
- 1.3 研究方法10
- 1.4 本文结构安排10-12
- 第一章 藏文短语的定义、特点、及其类型12-18
- 1.1 短语的重要性12-13
- 1.2 藏文短语的界定13-15
- 1.3 藏文短语的特点15-17
- 1.4 藏文短语的类型17-18
- 第二章 藏语短语表记集的确定18-28
- 2.1 短语标记集的意义18
- 2.2 短语标记集的确定原则18
- 2.3 短语的基本标记集18-19
- 2.4 《说不完的故事》及其标注语料库19-28
- 第三章 《说不完的故事》中的短语的计量分析28-50
- 3.1 短语总量统计28-29
- 3.2 短语结构模型频率统计29-46
- 3.2.1 名词短语结构模型频率统计29-31
- 3.2.2 动词短语结构模型频率统计31-33
- 3.2.3 形容词短语结构模型频率统计33-36
- 3.2.4 数量短语结构模型频率统计36-38
- 3.2.5 时间性短语结构模型频率统计38-42
- 3.2.6 副词性短语结构模型频率统计42-44
- 3.2.7 特殊短语结构模型频率统计44-46
- 3.3 短语频率排序46-50
- 3.3.1 名词短语的频率排序47
- 3.3.2 动词短语的频率排序47-48
- 3.3.3 形容短语的频率排序48
- 3.3.4 数量短语的频率排序48
- 3.3.5 时间性短语的频率排序48-49
- 3.3.6 副词性短语的频率排序49
- 3.3.7 特殊短语的频率排序49-50
- 第四章 《说不完的故事》语料中的短语语法分析50-61
- 4.1 短语的结构分析50-55
- 4.1.1 名词短语的结构分析50-52
- 4.1.2 动词短语结构分析52-53
- 4.1.3 形容词短语结构分析53-54
- 4.1.4 副词性短语结构分析54
- 4.1.5 时间性短语结构分析54-55
- 4.1.6 数量短语结构分析55
- 4.2 语法功能分析55-61
- 4.2.1 名词短语的功能分析56-57
- 4.2.2 动词短语的结构57-58
- 4.2.3 形容词短语的功能分析58-59
- 4.2.4 副词性短语59
- 4.2.5 时间性短语59-60
- 4.2.6 数量短语功能分析60-61
- 第五章 《说不完的故事》语料中的短语语义角色分析61-68
- 5.1 短语结构句法成分分析61-64
- 5.2 短语语义角色分析64-68
- 第六章 《说不完的故事》的藏文短语信息库68-82
- 6.1 名词短语信息库68-70
- 6.2 动词短语信息库70-73
- 6.3 形容词短语信息库73-75
- 6.4 副词性短语信息库75-77
- 6.5 数量短语信息库77-78
- 6.6 时间性短语信息库78-79
- 6.7 特殊短语信息库79-80
- 6.8 谚语信息库80
- 6.9 习语信息库80-82
- 结束语82-83
- 致谢83-84
- 参考文献84-85
【相似文献】
中国期刊全文数据库 前10条
1 仇永钢;比况短语初探[J];南通航运职业技术学院学报;2003年04期
2 王姝;;关于汉语短语系统[J];佳木斯大学社会科学学报;2008年04期
3 宋世平;;短语类型划分分析[J];荆州师专学报;1989年03期
4 周强;汉语短语的自动划分和标注[J];中文信息学报;1997年01期
5 陈德三;联合短语三题[J];漳州师院学报(哲学社会科学版);1998年02期
6 徐仲华;;谈谈《提要》中的短语[J];语文学习;1984年10期
7 孟庆财;一些表示数量的习惯短语结构[J];大学英语;1995年05期
8 姚智清;《阿Q正传》中“X而且Y”式短语结构小析[J];天中学刊;2000年03期
9 张发扬;短语功能类型质疑[J];职大学报;2002年01期
10 王红侠;;组合式偏正短语的语义分析[J];常州工学院学报(社科版);2006年02期
中国重要会议论文全文数据库 前8条
1 赵章界;白硕;;短语结构制导的范畴表达式演算[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 吴云芳;常宝宝;詹卫东;;汉英双语短语信息数据库的构建[A];第一届学生计算语言学研讨会论文集[C];2002年
3 玉素甫.艾白都拉;阿不都热依木.沙力;木沙江;;面向现代维吾尔语处理的短语信息库构造方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 张大鲲;张玮;董静;;基于非连续短语的统计翻译模型[A];第三届学生计算语言学研讨会论文集[C];2006年
5 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 方芳;李斌;;基于语料库的数量名短语识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 华沙宝;达胡白乙拉;;蒙古语宾述短语的自动获取研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 胡日勒;宗成庆;徐波;;基于短语结构抽取和对齐的机器翻译模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前1条
1 陈丽萍;从多义短语入手讲授短语的结构类型和层次分析[N];语言文字周报;2010年
中国博士学位论文全文数据库 前4条
1 曹井香;中英平行短语依存树库的构建与应用研究[D];大连理工大学;2013年
2 赵章界;短语结构制导的范畴表达式演算[D];中国科学院研究生院(计算技术研究所);2006年
3 秦颖;汉语词和短语的歧义消解研究[D];北京邮电大学;2008年
4 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 白玉;20世纪80年代以来的汉语联合短语研究[D];吉林大学;2013年
2 窦金霞;面向信息处理的“并”类短语研究[D];上海师范大学;2007年
3 李福民;基于语料库的短语结构分析研究[D];山西大学;2012年
4 杨坡;汉语联合短语结构分析与识别[D];湘潭大学;2011年
5 霍亚格;汉语短语识别方法研究[D];河南科技大学;2011年
6 杨国基;汉语中基于短语结构的语义提取[D];天津大学;2007年
7 佘灵琳;留学生习得“的”字短语的偏误分析[D];湖南师范大学;2014年
8 陈珊;汉语网络偏正短语的搭配研究[D];湖南师范大学;2013年
9 俄拉扎提·巴合达吾列提;哈萨克语短语库构建及管理系统的研究与实现[D];新疆大学;2014年
10 旦正才让;基于《说不完的故事》语料库的藏文短语分析研究[D];西北民族大学;2015年
,本文编号:987899
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/987899.html