云环境下流数据关键字的实时查询处理技术研究
本文关键词:云环境下流数据关键字的实时查询处理技术研究
更多相关文章: 流数据 云计算 实时处理 Top-K关键字查询 突发关键字查询 Spark Streaming
【摘要】:随着互联网技术的飞速发展,新闻、博客、社交应用的兴起,流数据关键字的实时查询处理技术被广泛应用于搜索引擎、社交网络等各个领域。现有的查询处理技术大多假设关键字集合已知,然而在大数据背景下,关键字集合的大小通常是未知的。同时传统集中式的查询处理方法未考虑数据划分、合并方法等问题,从而导致算法应用到分布式环境后精度和性能下降。本文针对流数据中常见的几类关键字查询问题,提出新的实时处理技术及相应的查询算法,主要研究工作如下:(1)现有流数据Top-K关键字查询算法使用固定的存储空间,在关键字集合已知的条件下,查找出流数据中出现频数最高的k个关键字。但在许多应用场景中,关键字集合通常是未知的。针对这个问题,在Spark Streaming框架下提出一种基于动态Summary的Top-K关键字查询算法TSTop-K(Time Supported Top-K Term Query),算法通过数据划分,并结合更新策略的优化、合并方法的设计,使得算法在使用少量存储空间和关键字集合未知的条件下具有较高的精度。(2)现存的突发关键字查询方法存储统计所有的关键字,并未考虑热点关键字。在数据呈爆炸式增长的背景下,获取热点关键字的突发时间更具有价值。针对这个问题,提出一种基于数值差异模型的分布式突发关键字查询算法DBT(Distributed Bursty Term Query),算法采用动态的更新策略,设置检查点的方法提取热点关键字,然后根据突发值估计方法计算关键字的突发程度,找出关键字刚开始突发的时间,并在线性的时间内返回所有查询关键字综合突发值最高的时间范围。(3)以流式处理框架Spark Streaming为基础,设计实现了一个关键字实时查询处理系统RTQPT(Real-Time Query Processing System of Terms),实现本文提出的Top-K关键字查询和突发关键字查询,能够根据监测到的关键字,高效的处理、存储和查询,具有一定的扩展性。对设计的关键字实时查询处理系统的设计思想、系统架构、各个模块的设计及实现做了详细的介绍。
【关键词】:流数据 云计算 实时处理 Top-K关键字查询 突发关键字查询 Spark Streaming
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 绪论13-18
- 1.1 云环境下流数据查询处理技术的发展13-15
- 1.2 本文的选题依据和意义15-16
- 1.3 本文的主要工作16
- 1.4 本文的组织结构16-18
- 第二章 云环境下流数据关键字实时查询处理技术相关工作18-28
- 2.1 云环境下流数据实时查询处理技术概述18-23
- 2.1.1 大数据流式处理框架18-21
- 2.1.2 大数据存储技术21-23
- 2.2 流数据Top-K关键字查询技术23-26
- 2.2.1 基于Counter的查询方法24-25
- 2.2.2 基于Sketch的查询方法25-26
- 2.3 流数据突发关键字查询技术26-27
- 2.4 本章小结27-28
- 第三章 基于动态Summary的Top-K关键字查询方法28-40
- 3.1 问题描述28-29
- 3.2 Top-K关键字查询定义29
- 3.3 分布式Top-K关键字查询算法29-35
- 3.3.1 数据划分30
- 3.3.2 基于动态Summary更新策略和检查点的设置30-33
- 3.3.3 Top-K查询算法33-35
- 3.3.4 代价分析35
- 3.4 实验与性能评估35-39
- 3.4.1 实验设置35-36
- 3.4.2 结果分析36-39
- 3.5 本章小结39-40
- 第四章 基于数值差异模型的突发关键字查询方法40-53
- 4.1 问题描述40-41
- 4.2 形式化描述41-42
- 4.2.1 问题定义41-42
- 4.2.2 突发值估计42
- 4.3 分布式突发关键字查询算法42-49
- 4.3.1 热点关键字提取43-46
- 4.3.2 突发查询方法46-49
- 4.3.3 代价分析49
- 4.4 实验与性能评估49-52
- 4.4.1 实验设置49
- 4.4.2 结果分析49-52
- 4.5 本章小结52-53
- 第五章 云环境下RTQPT系统设计与实现53-62
- 5.1 RTQPT系统的设计53-55
- 5.1.1 设计思想53-54
- 5.1.2 体系架构54
- 5.1.3 执行流程54-55
- 5.2 RTQPT系统的实现55-61
- 5.2.1 数据接入模块的实现56
- 5.2.2 数据处理模块的实现56-58
- 5.2.3 数据存储模块的实现58-59
- 5.2.4 数据查询模块的实现59-60
- 5.2.5 实验结果及分析60-61
- 5.3 本章小结61-62
- 第六章 结束语62-64
- 6.1 本文的主要工作和贡献62-63
- 6.2 本文的不足和未来的研究方向63-64
- 参考文献64-70
- 致谢70-71
- 在学期间的研究成果及发表的学术论文71
【相似文献】
中国期刊全文数据库 前10条
1 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
2 聂国梁;卢正鼎;;流数据实时近似求和的算法研究[J];小型微型计算机系统;2005年10期
3 李卫民;于守健;骆轶姝;乐嘉锦;;流数据管理的降载技术:研究进展[J];计算机科学;2007年06期
4 李子杰;郑诚;;流数据和传统数据存储及管理方法比较研究[J];计算机技术与发展;2009年04期
5 潘静;于宏伟;;流数据管理降载技术研究综述[J];中国管理信息化;2009年21期
6 邹永贵;龚海平;夏英;宋强;;一种面向流数据频繁项挖掘的降载策略[J];计算机应用研究;2011年04期
7 聂国梁;卢正鼎;聂国栋;;流数据近似统计算法研究[J];计算机科学;2005年04期
8 魏晶晶;金培权;龚育昌;岳丽华;;基于流数据的大对象数据缓冲机制[J];计算机工程;2006年11期
9 杨立;;基于权重的流数据频繁项挖掘算法的应用[J];微型机与应用;2011年02期
10 尹为;张成虎;杨彬;;基于流数据频繁项挖掘的可疑金融交易识别研究[J];西安交通大学学报(社会科学版);2011年05期
中国重要会议论文全文数据库 前3条
1 刘正涛;毛宇光;吴庄;;一种新的流数据模型及其扩展[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 姚春芬;陈红;;分布偏斜的流数据上的一种直方图维护算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 孙焕良;赵法信;鲍玉斌;于戈;王大玲;;CD-Stream——一种基于空间划分的流数据密度聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前6条
1 丁智国;流数据在线异常检测方法研究[D];上海大学;2015年
2 聂国梁;流数据统计算法研究[D];华中科技大学;2006年
3 刘建伟;流数据查询系统结构及模式查询算法的研究[D];东华大学;2005年
4 李卫民;流数据查询算法若干关键技术研究[D];东华大学;2008年
5 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
6 陈筠翰;车载网络的若干关键技术研究[D];吉林大学;2014年
中国硕士学位论文全文数据库 前10条
1 孔祥佳;基于海洋平台监测的流数据管理研究[D];大连理工大学;2015年
2 王晨阳;支持位置谓词的XML流数据查询技术[D];北京工业大学;2015年
3 王中义;基于动态支持度的流数据关联规则挖掘[D];哈尔滨工业大学;2014年
4 赵丹;面向流数据的不平衡样本分类研究[D];哈尔滨工业大学;2014年
5 冯学智;基于宏森林自动机的XML流数据查询技术[D];北京工业大学;2015年
6 徐雳雳;物流数据中的云聚类调度算法研究[D];南京邮电大学;2015年
7 肖丙贤;大规模流数据聚集查询服务的生成与优化[D];北方工业大学;2016年
8 刘晓斐;分布式流处理系统操作共享优化算法研究[D];吉林大学;2016年
9 张媛;基于弹性分布式数据集的流数据聚类分析[D];华东师范大学;2016年
10 王曾亦;基于内存计算的流数据处理在飞行大数据的研究与应用[D];电子科技大学;2016年
,本文编号:991486
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/991486.html