文本标注平台的设计原理与应用研究
本文关键词:文本标注平台的设计原理与应用研究,,由笔耕文化传播整理发布。
《上海师范大学》 2014年
文本标注平台的设计原理与应用研究
杨小梅
【摘要】:中国的语言在大型数据库建设方面主要集中于语音和词汇,而文本语法研究进展缓慢,导致这种情况主要有三方面的因素。首先,学术观念的约束,忽视了文本型的语言资源;其次,研究方法的制约,阻碍了文本标注语法研究的发展;最后,研究人员的缺少,中国民族语言众多而研究队伍成员不多。现如今越来越多的语言学家意识到真实文本语料的重要性,文本标注的语法研究也逐步取得了一些成绩,但当前用于语法标注与分析的文本处理方法和加工工具存在复杂繁琐问题,对于中国语言而言普适性不够好,尤其是处理有声调的语言,因此,通过计算机技术支持重新设计与开发一个用于文本处理实现语法标注的研究平台非常有必要且极其迫切的。 本文主要目标就是想实现一个更适合中国语言文本标注的语法研究平台,具有实用性和高效性,语言学家可以高效、准确地完成生语料到熟语料的标注处理,建立语言学界一直都期盼的高效能隔行对照化格式的语言资源。本文重点论述了两个方面,一方面,改善语料资源来源的途径,丰富文本资源,扩大研究者自建的语料库;另一方面,改进文本资源加工的方法,完善文本处理,准确高效地完成语法标注。本研究基础技术由三个部分组成,输入技术、文本处理技术和输出技术。这三个部分的设计原理和解决策略构建起来也就是本平台的整体框架,为研究者提供一个更适合中国语言使用的语法研究平台,用于语法分析与文本标注。全文共分为八章: 第一章:由语言资源与语法标注现状分析进而说明本研究的必要性与重要性。 第二章:介绍文本标注平台的整体框架,以及本文主要技术方法的设计原理。 第三章:通过本文提供的输入技术可以获取多种文本资源的来源方式,以及提出的语音快速录入形成文本的新途径。 第四章:词典贯穿于整个研究平台,词典的重要性和词典设置,重点介绍了文本与词典的互动技术,隔行对照化、跳转插词和词典编辑的实现方法。 第五章:句法分析,面对多种语言本文提出了改进的匹配算法提高了文本分词和匹配标注的效率性和准确性,重点阐述了文本分词的重要性和实现策略。 第六章:形态分析,面对多种语言本文实现了屈折、粘着、变调、重叠和多义的语音语法语义现象的文本标注,提供了合理可行的解决方法。 第七章:提供了多种资源成果的输出方式,包括语料、例句、勘拷灯、词典、词表等。可排版的隔行对照化格式,可筛选的检索结果输出,实用性非常强。 第八章:总结了本文的创新之处,并对下一阶段的工作提出展望。 本研究介绍了合理可行的文本资源来源方法,高效实用的语法标注处理方法,多样可排版的资源成果输出方法。本文采用词典策略、文本分词、隔行对照化、匹配标注、形态处理、深层和表层形式、词规则等技术方法完成了大量文本资源的语法标注。改善了中国语言资源挖掘与研究的方法,促进了少数民族语言和汉语方言真实文本资源语法标注的发展,同时对濒危性语言和非物质文化遗产有着极为重要的保护与保留作用。
【关键词】:
【学位授予单位】:上海师范大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:H08
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 陈玉忠,俞士汶;藏文信息处理技术的研究现状与展望[J];中国藏学;2003年04期
2 马希文;;以计算语言学为背景看语法问题[J];国外语言学;1989年03期
3 韦茂繁;关于语流音变几个问题的讨论[J];广西民族学院学报(哲学社会科学版);1987年03期
4 王东;陈笑蓉;;一种改进的高效分词词典机制[J];贵州大学学报(自然科学版);2007年04期
5 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
6 侯伟;杨炳儒;宋威;;多关系关联规则算法综述[J];计算机工程与应用;2007年23期
7 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期
8 吴涛;张毛迪;陈传波;;一种改进的统计与后串最大匹配的中文分词算法研究[J];计算机工程与科学;2008年08期
9 叶小平;陈铠原;汤庸;汤娜;胡苏;;时态XML索引技术[J];计算机学报;2007年07期
10 胡晓鹏,李晓航,李岗;一种基于XML映射规则的数据迁移方法设计和实现[J];计算机应用;2005年08期
中国博士学位论文全文数据库 前2条
1 杨俊芳;汉语方言形容词重叠研究[D];复旦大学;2008年
2 李斌;用ELAN自建汉语方言多媒体语料库及其应用研究[D];湖南师范大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 王德寿;走向成熟和繁荣的现代汉语语法研究——我国(大陆)近20年现代汉语语法研究综[J];安徽广播电视大学学报;1999年04期
2 刘向东;;汉语词类划分的分歧与和解——来自生成语言学的启示[J];安徽职业技术学院学报;2009年03期
3 孙银新;;黎锦熙的汉语构词法研究及其贡献[J];安徽师范大学学报(人文社会科学版);2011年06期
4 王银霞;;河南方言中“个”的弱化与音系-句法协同[J];安徽工业大学学报(社会科学版);2009年06期
5 马乃田;句法规律:汉语语法学研究的基础与核心[J];安庆师范学院学报(社会科学版);2005年01期
6 牛承志;赵晓凡;;医院信息系统数据迁移设计与实现[J];安阳师范学院学报;2011年02期
7 路崴崴;;“V一下”结构语义分析[J];白城师范学院学报;2010年01期
8 张新华;;与无定名词主语句相关的理论问题[J];北京大学学报(哲学社会科学版);2007年06期
9 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
10 詹人凤;试说隐性语法关系[J];北方论丛;1994年05期
中国重要会议论文全文数据库 前10条
1 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 江荻;;藏语不规则动词的信息标注方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 万菁;姬东鸿;任函;冯文贺;;汉语复合名词短语特征结构的标注研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 陈波;姬东鸿;孙程;吕晨;;基于特征结构的汉语主谓谓语句语义标注研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 王仁强;;汉英词典词类标注与译义的对称性研究——兼评《ABC 汉英大词典》的词类标注与译义[A];中国辞书学会双语词典专业委员会第6届年会暨学术研讨会论文专辑[C];2005年
6 程书秋;;“V不V”及其相关结构[A];语言学论文选集[C];2001年
7 王振来;;语义功能语法的应用价值研究[A];当代中国辽宁发展·创新·和谐——辽宁省第二届哲学社会科学学术年会获奖成果文集[C];2009年
8 杜琦;巩政;;基于字符串相似度的自动评分算法实现[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
9 梁一平;邓左祥;周小平;;一种多关系数据挖掘中元组ID传播的设计与实现[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
10 赵宏;申超;;异构视频服务系统集成与调度策略研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 徐佳;生态语言学视域下的中国濒危语言研究[D];上海外国语大学;2010年
2 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
3 方清明;现代汉语名名复合形式的认知语义研究[D];暨南大学;2011年
4 王俊;现代汉语离合词研究[D];华中师范大学;2011年
5 任敏;现代汉语非受事动宾式双音复合词研究[D];河北师范大学;2011年
6 翟会锋;三官寨彝语参考语法[D];中央民族大学;2011年
7 林新宇;汉语和韩国语话题句对比研究[D];中央民族大学;2011年
8 王国旭;新平彝语腊鲁话研究[D];中央民族大学;2011年
9 陈全静;汉语并列式双音时间副词的词汇化及相关问题研究[D];上海师范大学;2011年
10 龚娜;湘方言程度范畴研究[D];湖南师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 高鹏;基于数字电视平台的制播存一体化研究与设计[D];哈尔滨工程大学;2010年
2 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
3 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
4 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
5 郭贞彦;山西文水(裴会村)话语音研究[D];青海师范大学;2010年
6 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
7 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
8 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
9 张欢;现代汉语名词的复数表达形式及其标记问题[D];南昌大学;2010年
10 钟鸣;汉英事件名词比较[D];南昌大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘义青,张艳梅;深泽方言重叠式初探[J];保定师范专科学校学报;2004年03期
2 任永辉;宝鸡方言的语法特点[J];宝鸡文理学院学报(社会科学版);2004年01期
3 纪国泰;郫县方言表示形容词程度的几种方式[J];成都师专学报;1995年03期
4 易亚新;常德方言表程度加深的形式和手段[J];湖南文理学院学报(社会科学版);2005年02期
5 刘永绥;重庆方言的实词重叠及变调[J];重庆师院学报(哲学社会科学版);1997年02期
6 徐正兴,王静;无锡话中的形容词[J];常熟理工学院学报;2005年03期
7 张海燕;沧州方言的语法特点[J];沧州师范专科学校学报;2000年01期
8 扎西次仁;《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J];中国藏学;1997年02期
9 张敏;从类型学和认知语法的角度看汉语重叠现象[J];国外语言学;1997年02期
10 雷秀云,杨惠中;基于语料库的研究方法及MD/MF模型与学术英语语体研究[J];当代语言学;2001年02期
中国重要会议论文全文数据库 前1条
1 陈玉忠;李保利;俞士汶;兰措吉;;基于格助词和接续特征的藏文自动分词方案[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 甘于恩;广东四邑方言语法研究[D];暨南大学;2002年
2 吴云霞;万荣方言语法研究[D];厦门大学;2002年
3 彭兰玉;衡阳方言语法研究[D];湖南师范大学;2002年
4 陈前瑞;汉语体貌系统研究[D];华中师范大学;2003年
5 李劲荣;现代汉语状态形容词的认知研究[D];上海师范大学;2004年
6 张桃;宁化客家方言语法研究[D];厦门大学;2004年
7 丁崇明;昆明方言语法研究[D];山东大学;2005年
8 阮桂君;宁波方言语法研究[D];华中师范大学;2006年
9 孙英杰;现代汉语体系统研究[D];北京语言大学;2006年
10 史冠新;临淄方言语气词研究[D];山东大学;2006年
中国硕士学位论文全文数据库 前10条
1 元传军;现代汉语形容词重叠式研究[D];南京师范大学;2002年
2 刘洁;唐五代重叠的“调量”研究[D];四川大学;2002年
3 金宝允;现代汉语形容词研究[D];首都师范大学;2002年
4 赵鹏;基于数据压缩的信息检索技术的研究[D];黑龙江大学;2002年
5 颜峰;郯城(重坊)方言研究[D];苏州大学;2003年
6 刘莉芳;山西晋语形容词重叠研究[D];华南师范大学;2004年
7 门秀红;应县方言语法研究[D];西南师范大学;2005年
8 山娅兰;沾益方言语法研究[D];云南师范大学;2005年
9 许维维;汉语重叠式状态词范畴系统研究[D];华东师范大学;2006年
10 王小龙;基于语料库的东台方言特色词释义[D];南京师范大学;2007年
【相似文献】
中国期刊全文数据库 前1条
1 王晓武;全国县情资料文献检索系统[J];中文信息;1997年02期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前2条
1 戴洪玲;[N];中国电脑教育报;2004年
2 山东 黄家贞;[N];电脑报;2001年
中国博士学位论文全文数据库 前10条
1 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
2 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
3 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
4 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
5 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
6 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
7 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
8 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
9 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
10 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 姜英杰;基于本体的短文本分类研究[D];东北师范大学;2010年
2 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
3 马渊;短文本情感分析技术研究[D];重庆大学;2011年
4 张超;文本OLAP关键技术研究[D];山东大学;2012年
5 王宝龙;面向新闻领域的文本数据获取系统的设计与实现[D];北京邮电大学;2010年
6 曾洪波;基于类别裁剪和模糊理论的文本分类算法研究[D];暨南大学;2011年
7 徐立新;互联网文本视频过滤技术研究与应用[D];电子科技大学;2010年
8 梁鹏鹏;概率主题模型及其在关联文本分类中的应用研究[D];郑州大学;2011年
9 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
10 蔡月红;基于类短语串和半监督学习的短文本分类研究[D];江苏大学;2010年
本文关键词:文本标注平台的设计原理与应用研究,由笔耕文化传播整理发布。
本文编号:216677
本文链接:https://www.wllwen.com/shoufeilunwen/rwkxbs/216677.html