基于关系模型的语料库查询处理问题研究

发布时间:2017-05-24 10:26

  本文关键词:基于关系模型的语料库查询处理问题研究,由笔耕文化传播整理发布。


【摘要】:随着信息科学领域基于统计的自然语言处理技术和人文学科领域描述性语言学研究的发展,一些研究机构、企业和组织甚至个人都开发、建设和积累了大量不同规模的语料库。这些语料库作为宝贵财产,已经成为改善和提高自然语言处理方法效率和质量的关键基础,也为语言分析、语言教学、翻译研究和语言学习提供重要的数据资源和知识。目前,有关语料库的研究领域已经形成了一个独立的学科——语料库语言学。如何快速、有效地从语料库中抽取相关信息成为语料库语言学研究中一个至关重要的问题。对语料库数据建模并研究其上的查询处理问题,是语料库中信息抽取技术的基础。本文针对语料库的数据模型、基本查询问题及查询处理方法、关键字查询问题及查询处理方法、基于语句的语义查询问题及查询处理方法和语料库查询系统体系结构及原型系统的实现等几个关键问题进行了研究,论文的主要研究内容如下:首先,使用形式化方法对语料库的概念定义进行精细化的重定义。将语料库的形式化定义与关系模型相结合,对语料库数据建立一种可计算的D-Corpus逻辑模型。分析并证明了D-Corpus模型的完备性。其次,根据D-Corpus模型,对传统语料库上以KWIC输出为中心的语料库查询语义进行分析,给出语料库上的基本查询问题的形式化定义,并分析了这些查询问题的数据复杂度。根据这些查询问题,定义了面向语料库查询处理的包括选择、投影、并、差、笛卡尔积、重命名和递归在内的代数操作,并在此基础上提出了面向语料库查询处理的非递归算法和递归算法,并通过实验对算法进行了分析和验证。第三,研究面向语料库的支持递归语义的关键字查询问题及其查询处理方法。由于面向语料库的关键字查询要求解决用户所提交关键字中存在的递归语义,而传统关系数据库上的关键字查询方法中定义的数据图无法回答这种语义。为此,提出了一种描述关系内元组连接关系的语料库数据图模型,并将关键字查询问题转换为图中搜索分组Steiner树的问题,给出了数据图上关于顶点和边的评分方法,提出了基于动态规划策略的结果树枚举算法,最后通过实验分析也验证了算法的有效性。第四,提出语料库上基于语句的语义查询问题和查询处理方法。针对传统方法的不足,提出一种基于依存语法分析和语义网的语义查询处理方法。首先,通过考虑语句依存语法树中的依存关系集的相似性,提出基于语义网的句子的语义相似度计算方法。其次,提出一种基于有效依存结构的语句句法结构相似度计算方法。再次,提出基于综合考虑语句语义相似度和句法相似度的语句相似度计算方法。最后,根据语句相似度的计算方法提出语料库上基于语句的语义查询处理算法,并通过实验和分析验证了算法的有效性。最后,给出了语料库查询系统体系结构,并依据该体系结构设计和实现了一个语料库查询原型系统R-CQS。将本文提出的三类查询问题及其查询处理方法在原型系统中进行了应用测试。
【关键词】:语料库 关系模型 查询处理 关键字查询 语义查询
【学位授予单位】:燕山大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • Abstract6-11
  • 第1章 绪论11-28
  • 1.1 语料库11-14
  • 1.1.1 语料库的概念11-12
  • 1.1.2 语料库实例12-13
  • 1.1.3 语料库的特点13-14
  • 1.2 研究背景与意义14-16
  • 1.2.1 语料库的发展背景14
  • 1.2.2 语料库中信息抽取的技术与应用背景14-16
  • 1.2.3 语料库查询处理问题研究的意义16
  • 1.3 语料库上信息抽取相关技术的研究现状16-25
  • 1.3.1 面向无结构语料库信息抽取的技术及其应用16-18
  • 1.3.2 面向半结构语料库的信息抽取技术及其应用18-21
  • 1.3.3 面向结构化语料库的信息抽取技术及其应用21-23
  • 1.3.4 现有语料库查询系统的对比及研究中存在的问题23-25
  • 1.4 课题研究的主要内容25-26
  • 1.5 论文结构26-28
  • 第2章 描述语料库的数据模型28-37
  • 2.1 引言28
  • 2.2 语料库的概念及XML表示28-31
  • 2.3 语料库的形式化定义31-32
  • 2.3.1 语料库基本元素的形式化定义31
  • 2.3.2 语料库的形式化定义31-32
  • 2.4 语料库的逻辑模型及其完备性32-36
  • 2.4.1 关系模型的定义32-33
  • 2.4.2 语料库的数据模型33-35
  • 2.4.3 模型的完备性35-36
  • 2.5 本章小结36-37
  • 第3章 语料库基本查询问题及其查询处理37-63
  • 3.1 引言37
  • 3.2 语料库的查询问题描述37-42
  • 3.2.1 基本定义37-39
  • 3.2.2 问题描述39-42
  • 3.3 语料库查询问题的复杂度42-49
  • 3.3.1 基础知识42-44
  • 3.3.2 复杂度分析44-49
  • 3.4 语料库的查询处理方法49-57
  • 3.4.1 面向语料库的关系代数操作49-50
  • 3.4.2 语料库查询的重写算法及分析50-52
  • 3.4.3 语料库的查询处理方法及分析52-55
  • 3.4.4 语料库的查询优化策略55-57
  • 3.5 实验分析57-61
  • 3.5.1 实验环境与数据集57
  • 3.5.2 实验结果与分析57-61
  • 3.6 本章小结61-63
  • 第4章 语料库关键字查询问题及其查询处理63-86
  • 4.1 引言63-64
  • 4.2 问题描述64-69
  • 4.2.1 研究动机64-67
  • 4.2.2 数据模型67-69
  • 4.2.3 问题描述69
  • 4.3 评分策略69-73
  • 4.3.1 顶点评分方法70-71
  • 4.3.2 边评分方法71-72
  • 4.3.3 元组连接树相关度评分方法72-73
  • 4.4 数据图的创建73-74
  • 4.4.1 算法描述73-74
  • 4.4.2 算法分析74
  • 4.5 关键字索引74-76
  • 4.5.1 语料库关键字倒排索引的组织74-75
  • 4.5.2 关键字倒排索引的创建算法75
  • 4.5.3 算法分析75-76
  • 4.6 结果树枚举76-81
  • 4.6.1 元组连接树扩展操作76-77
  • 4.6.2 结果树近似枚举算法77-78
  • 4.6.3 实例分析78-79
  • 4.6.4 算法正确性分析79-80
  • 4.6.5 算法复杂度分析80
  • 4.6.6 算法优化策略80-81
  • 4.7 语料库关键字查询处理算法81
  • 4.8 实验分析81-85
  • 4.8.1 实验环境与数据集81-82
  • 4.8.2 实验结果与分析82-85
  • 4.9 本章小结85-86
  • 第5章 语料库上基于语句的语义查询问题及其查询处理86-106
  • 5.1 引言86-87
  • 5.2 基础知识87-92
  • 5.2.1 依存语法87-89
  • 5.2.2 向量空间模型89-91
  • 5.2.3 基于WordNet的词汇相似度91-92
  • 5.3 问题描述92
  • 5.4 语义相似度的度量92-97
  • 5.4.1 文本正态化93-94
  • 5.4.2 单词节点依存关系集94-97
  • 5.4.3 语句的语义相似度97
  • 5.5 句法相似度的度量97-99
  • 5.5.1 语句的有效依存结构集98-99
  • 5.5.2 语句的句法相似度99
  • 5.6 语句相似度的度量99-100
  • 5.7 基于语句相似度的语义查询处理算法100-101
  • 5.7.1 算法思想100
  • 5.7.2 算法描述100-101
  • 5.8 实验分析101-105
  • 5.8.1 语句相似度算法的有效性分析101-104
  • 5.8.2 基于语句相似度的语义查询处理算法有效性分析104-105
  • 5.9 本章小结105-106
  • 第6章 语料库查询系统的设计与实现106-117
  • 6.1 语料库查询系统概述106-108
  • 6.1.1 语料库查询系统的基本概念107
  • 6.1.2 语料库查询系统的逻辑功能107-108
  • 6.2 语料库查询系统体系结构108-109
  • 6.3 语料库查询原型系统R-CQS的实现109-116
  • 6.3.1 开发环境109-110
  • 6.3.2 数据管理模块110-111
  • 6.3.3 索引模块测试111
  • 6.3.4 面向语料库的查询处理模块测试111-116
  • 6.4 本章小结116-117
  • 结论117-119
  • 参考文献119-128
  • 攻读博士学位期间承担的科研任务与主要成果128-130
  • 致谢130

【相似文献】

中国期刊全文数据库 前10条

1 李北星;分布式数据库管理系统中的查询处理设计[J];计算机工程与设计;1987年03期

2 T.F.Keefe ,M.B.Thuraisingham ,W.T.Tsai ,范宏深;安全查询处理策略[J];计算机工程与科学;1991年01期

3 李芝棠,朱俭,殷军,张江陵;单关系查询处理机的任务生成[J];计算机应用;1992年02期

4 冯志林;分布式数据库系统中基于半连接的查询处理[J];计算机应用与软件;1989年03期

5 郝忠孝,马宗民,胡春海;基于空值环境下扩展关系模型的查询处理研究[J];计算机研究与发展;1994年10期

6 冯玉才,张鹏程;基于近似查询的在线分组聚集及其应用[J];计算机工程;2005年16期

7 黄艳;朱会东;;一种基于移动Agent的查询处理策略[J];计算机工程;2007年01期

8 钱江波;徐宏炳;董逸生;刘学军;王永利;杨雪梅;;共享连接结果的连续查询处理[J];东南大学学报(自然科学版);2007年01期

9 肖予钦,张巨,景宁,李军;基于R树的方向关系查询处理[J];软件学报;2004年01期

10 李国禄;分布式数据库系统中的查询处理[J];青海师专学报.教育科学;2005年S3期

中国重要会议论文全文数据库 前10条

1 韩璐;王朝坤;邹鹏;徐亚军;;不确定图数据上的不确定查询处理[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

2 陈红;王珊;;多阶段并行多查询处理框架[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

3 陈良刚;刘震;施伯乐;;位置相关查询处理[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

4 廖巍;景宁;李军;吴秋云;;一种通用的可伸缩增量连续查询处理框架[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

5 朱金清;王伟;周军锋;孟小峰;;基于相关性语义的高效XML Twig查询处理方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

6 夏添;蔡文渊;徐林昊;钱卫宁;周水庚;周傲英;;P2P环境下的查询处理代价估算[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

7 祝远玲;冯玉;王珊;;PBASE的并行查询处理策略[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年

8 丁治明;郭黎敏;;一种支持通用θ-Join的并行查询处理机制[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

9 熊蜀光;李建中;王宏志;高宏;;一种基于编码的图模型XML数据的存储与查询处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

10 肖刚;庄严;郑振楣;石树刚;;SamBase中的对象查询处理[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年

中国博士学位论文全文数据库 前8条

1 刘鼎甲;基于关系模型的语料库查询处理问题研究[D];燕山大学;2015年

2 邓波;分布式序敏感查询处理关键技术研究[D];国防科学技术大学;2006年

3 陈红;并行多查询处理关键技术研究[D];中国科学院研究生院(计算技术研究所);2000年

4 王振华;P2P环境下查询处理关键技术的研究[D];东北大学;2011年

5 吴爱华;不一致数据的查询处理[D];复旦大学;2010年

6 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年

7 张蓉;结构化对等计算机系统中的查询处理[D];复旦大学;2007年

8 李瑞轩;异构信息集成中的查询处理与优化研究[D];华中科技大学;2004年

中国硕士学位论文全文数据库 前10条

1 Les Kimball Kamara;连接数据知识库语义查询处理[D];东北大学;2014年

2 曹佩;延迟容忍网络的订阅查询处理[D];宁波大学;2013年

3 刘伟伟;分布式空间信息集成查询处理关键技术研究[D];国防科学技术大学;2009年

4 李东亮;不确定多媒体数据个性化查询处理系统设计与实现[D];华中科技大学;2012年

5 武亮亮;增量的连续k近邻查询处理方法的研究[D];燕山大学;2010年

6 李义国;基于不完全约束的XML查询处理关键技术研究[D];燕山大学;2010年

7 熊蜀光;图模型XML数据上查询处理方法的研究[D];哈尔滨工业大学;2006年

8 曲东;面向Ziv-Lempel压缩文本的多查询处理技术[D];东北大学;2010年

9 刘英童;P2P环境下基于模式匹配的复杂查询处理的研究[D];哈尔滨工业大学;2007年

10 冯林;XML查询处理结构中的一种逻辑优化算法[D];西南大学;2008年


  本文关键词:基于关系模型的语料库查询处理问题研究,,由笔耕文化传播整理发布。



本文编号:390531

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/390531.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b2179***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com