空间文本数据的查询处理技术研究

发布时间:2017-03-27 12:09

  本文关键词:空间文本数据的查询处理技术研究,由笔耕文化传播整理发布。


【摘要】:随着GPS技术的快速发展和移动智能设备的日益普及,出现了越来越多的基于地理位置的服务(LBS)。这些服务产生了大量的空间文本数据,既包括空间地理位置,又包括文本描述。这给传统的以文本型数据为主的查询处理技术带来了极大的挑战,主要体现在两个方面:(1)查询效果的好坏通常与底层数据的质量密切相关,针对空间文本数据,如何有效的从多个数据源获取数据并去除其中冗余的部分。(2)在处理各类查询请求时,如何充分的利用空间坐标和文本关键词来优化查询算法,提高搜索性能。本文的主要研究内容及贡献点如下:1.空间文本数据的融合:传统的数据融合算法只针对纯空间数据或者纯文本数据。为了解决这个问题,本文提出一种基于混合前缀签名的融合技术。一方面,针对空间部分,设计最小包围矩形(MBR)前缀剪枝算法,利用空间相似性阈值,为每条数据选取特定的子区域来产生空间签名,由于该区域远远小于原有MBR,因此能够更快速的定位到候选数据;另一方面,设计混合前缀签名算法,通过合并非频繁的关键词来增加索引利用率,并根据关键词的地理分布特点产生不同的空间划分,最后自适应的结合空间和文本前缀来产生混合签名,加强剪枝能力,快速的找到在空间和文本上都非常相似的数据。2.空间文本数据的Top-k检索:传统的Top-k检索算法没有针对文本部分进行优化。为了解决该问题,本文提出一种基于划分的检索算法。它利用TA的思想,增量的找到当前空间相似性最高或文本相似性最高的数据,并动态的合并它们得到候选结果。在建立索引时,按照空间区域和文本相似性区间将数据划分成桶,以桶为整体估计数据的相似性,在每个桶内部搜索Top-k结果并进行合并。通过这种方式,优先定位到相似度高的桶,避免访问大量的无用数据。3.空间文本数据的Top-k近似检索:传统的Top-k近似检索算法不能同时支持“字符级别的容错”和“Top-k”这两种需求。针对该问题,本文设计一种混合型层次索引结构(HLtree)。它能够根据数据分布动态的选择路标,并利用路标来指引数据进行层次划分,保证同一划分内的数据在空间和文本上彼此接近。为了支持多关键词检索,算法增量的找到与每个查询关键词相近的数据,并按照一定策略进行合并。此外,为了避免依次计算数据与路标之间的相似性,算法设计了字符删除策略,利用索引结构来产生数据划分,加速建立索引和查询处理的过程。
【关键词】:空间文本数据 数据融合 数据检索 基于地理位置的服务
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要3-4
  • Abstract4-9
  • 第1章 绪论9-17
  • 1.1 选题背景与研究动机9-14
  • 1.1.1 空间文本数据的融合10-12
  • 1.1.2 空间文本数据的Top-k检索12-13
  • 1.1.3 空间文本数据的Top-k近似检索13-14
  • 1.2 主要研究内容与贡献14-16
  • 1.3 章节安排16-17
  • 第2章 空间文本数据的融合17-57
  • 2.1 预备知识17-23
  • 2.1.1 问题定义17-19
  • 2.1.2 相关工作19-20
  • 2.1.3 基准方法20-23
  • 2.2 基于前缀过滤的解决方法23-31
  • 2.2.1 基于过滤验证的基本框架23-24
  • 2.2.2 空间签名与文本签名的选择24-26
  • 2.2.3 空间签名与文本签名的组织26-29
  • 2.2.4 排序策略29-30
  • 2.2.5 复杂度分析30-31
  • 2.3 基于MBR前缀的解决方法31-38
  • 2.3.1 前缀MBR的产生策略31-35
  • 2.3.2 基于MBR前缀的融合算法35-38
  • 2.4 基于混合前缀的解决方法38-44
  • 2.4.1 混合前缀的产生策略和融合算法38-42
  • 2.4.2 格子粒度的选择42-43
  • 2.4.3 R ? S型数据融合与其他近似性函数43-44
  • 2.5 实验结果44-55
  • 2.5.1 实验设置44-45
  • 2.5.2 签名模式的评测45-47
  • 2.5.3 MBR前缀技术的评测47-50
  • 2.5.4 混合前缀技术的评测50-51
  • 2.5.5 排序策略的评测51-52
  • 2.5.6 可扩展性的评测52-53
  • 2.5.7 与现有算法比较53-54
  • 2.5.8 R-S型数据融合效果的评测54-55
  • 2.5.9 各种相似性函数的评测55
  • 2.6 本章小结55-57
  • 第3章 空间文本数据的Top-k检索57-77
  • 3.1 预备知识57-61
  • 3.1.1 问题定义57-59
  • 3.1.2 相关工作59-60
  • 3.1.3 基准方法60-61
  • 3.2 增量式的Top-k检索算法61-68
  • 3.2.1 基本框架61-64
  • 3.2.2 增量式的空间最优检索算法64-65
  • 3.2.3 增量式的文本最优检索算法65-68
  • 3.3 基于划分的检索算法68-71
  • 3.4 实验结果71-76
  • 3.4.1 实验设置71
  • 3.4.2 对参数k的评测71-72
  • 3.4.3 对参数 α 的评测72-74
  • 3.4.4 对查询关键词数量的评测74-75
  • 3.4.5 对时间和空间可扩展性的评测75-76
  • 3.5 本章小结76-77
  • 第4章 空间文本数据的Top-k近似检索77-99
  • 4.1 预备知识77-82
  • 4.1.1 问题定义77-79
  • 4.1.2 相关工作79-81
  • 4.1.3 基准方法81-82
  • 4.2 混合型路标指引树82-91
  • 4.2.1 基本思路82-84
  • 4.2.2 HLtree的构建算法84-88
  • 4.2.3 HLtree的单关键词检索算法88-90
  • 4.2.4 HLtree的多关键词的检索算法90-91
  • 4.3 路标的选择策略91-93
  • 4.4 实验结果93-98
  • 4.4.1 实验设置93-95
  • 4.4.2 对查询词数量的评测95-96
  • 4.4.3 对参数k的评测96
  • 4.4.4 对时间和空间可扩展性的评测96-98
  • 4.5 本章小结98-99
  • 第5章 总结与展望99-101
  • 5.1 论文主要研究工作总结99-100
  • 5.2 进一步研究工作及展望100-101
  • 参考文献101-108
  • 致谢108-110
  • 个人简历、在学期间发表的学术论文与研究成果110-111

【相似文献】

中国期刊全文数据库 前10条

1 郭莹;;数据空间关键问题探究[J];软件导刊;2012年07期

2 厉剑;张绍雄;刘俊杰;李成柱;;大数据引发信息时代新变革[J];大众科技;2013年12期

3 李斌;;大数据及其发展趋势研究[J];广西教育;2013年35期

4 张晓军;孟祥武;;数字化周期[J];计算机科学;2002年05期

5 崔晨;吴扬扬;;基于活动的数据空间数据关系发现[J];微型机与应用;2011年11期

6 贾云得;;微型数字存贮遥测装置数据预存贮方法[J];遥测遥控;1989年06期

7 靳小龙;王元卓;程学旗;;大数据的研究体系与现状[J];信息通信技术;2013年06期

8 朝乐门;;数据空间及其信息资源管理视角研究[J];情报理论与实践;2013年11期

9 黄一凡;;合并分区 数据无损有妙招[J];电脑爱好者;2011年23期

10 葛敬军;胡长军;刘歆;李扬;刘震宇;;面向领域科学数据的虚拟数据空间共享模型[J];小型微型计算机系统;2014年03期

中国重要会议论文全文数据库 前5条

1 李鸿奎;陈洪艳;;大连市房地产基础地理信息系统的设计和建设[A];中国地理信息系统协会第九届年会论文集[C];2005年

2 董彦磊;申德荣;寇月;聂铁铮;;数据空间中数据组织模型以及关联关系发现模型的研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

3 庞怡;许洪光;张志敏;;针对海量科技信息的存储研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年

4 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年

5 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年

中国重要报纸全文数据库 前6条

1 牛泽亚;用户如何在数据空间里“被遗忘”?[N];人民邮电;2014年

2 风格;指引大数据未来发展方向的九大真理[N];中华读书报;2013年

3 录音整理 本报记者 刘文强 杨丰源;创新驱动,奋力奔向大数据时代[N];贵阳日报;2014年

4 中国人民大学信息学院 李玉坤;云计算与数据空间[N];中国计算机报;2008年

5 整理 本报记者 苏丹丹;把握大数据机遇 推动文化产业跨越发展[N];中国文化报;2013年

6 安徽国税局 赵为民;税务综合数据平台的设想[N];计算机世界;2007年

中国博士学位论文全文数据库 前10条

1 李晓娜;面向SaaS应用的多租户数据放置机制研究[D];山东大学;2015年

2 张德兵;基于机器学习的数据补全、标注和检索若干问题研究[D];浙江大学;2015年

3 刘思彤;空间文本数据的查询处理技术研究[D];清华大学;2015年

4 侯振隆;重力全张量梯度数据的并行反演算法研究及应用[D];吉林大学;2016年

5 姜朔;数据空间中数据集成若干关键问题研究[D];东华大学;2014年

6 陈鹏;面向情景感知计算的时空数据管理、查询、分析与相关算法研究[D];华东师范大学;2013年

7 杨丹;数据空间中基于语义的实体搜索关键技术研究[D];东北大学;2012年

8 王晓蕊;华北克拉通地球化学科学数据的管理及应用研究[D];中国地质大学;2008年

9 张晓东;数字河口平台建设关键技术研究[D];中国海洋大学;2009年

10 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年

中国硕士学位论文全文数据库 前10条

1 权西瑞;云环境下数据版权保护方法的研究[D];西安建筑科技大学;2015年

2 向兵;中药颗粒调剂设备中辅助硬件及自动封口机的设计[D];东北师范大学;2015年

3 朱跃龙;公安情报自动分类系统的设计与实现[D];电子科技大学;2015年

4 张鹏远;大数据分类存储及检索方法研究[D];西安电子科技大学;2014年

5 王梦佳;DOA下数据注册方法的初步研究与实现[D];成都理工大学;2015年

6 陈启伟;电机状态云监测系统研究与实现[D];浙江大学;2016年

7 王照清;大数据环境下数据查询优化技术应用研究[D];北方工业大学;2016年

8 贾振美;面向稀疏轨迹数据的位置预测方法研究[D];东北大学;2014年

9 崔晨;基于活动的数据空间的数据关系发现和数据重要性评价[D];华侨大学;2011年

10 童蓉;基于GIS的社区公共卫生信息平台应用研究[D];上海交通大学;2010年


  本文关键词:空间文本数据的查询处理技术研究,,由笔耕文化传播整理发布。



本文编号:270375

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/270375.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4b9b6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com