基于关系数据库与NoSQL相结合的微博数据存储研究
发布时间:2017-12-06 16:30
本文关键词:基于关系数据库与NoSQL相结合的微博数据存储研究
【摘要】:在这个数据大爆炸的时代,电子商务、社交网站、音频视频网站等每天都会产生TB级的数据量。如今,微博也毫无悬念的跻身其中,面临着海量数据存储问题。国内许多的诸如新浪微博、腾讯微博等网站,因为最初使用关系数据库存储数据,导致他们如今面临着两大难题。一是无法通过简单地新增存储设备来实现扩展,海量数据存储困难;二是当用户访问量过大时,即使1%的缓存访问不命中所造成的数据库查询仍然效率低下,甚至无法支撑。而国外如Facebook、Twitter等网站,其采用非关系型数据库(No SQL)进行数据存储,在处理海量数据方面,可以通过新增存储设备、提高数据存取效率等方式应对,但No SQL在面对那些要求高安全性、强事务性的业务时就显得很乏力。因此,如何解决微博海量数据存储、提高访问效率,还能适应部分业务的强事务性要求,就成为一个重要的研究方向。然而国内外学者在这方面的研究工作一直都进展缓慢,虽有一定成果,但大都停留在概念或模型地提出而全无具体策略,无法投入实际应用。针对上述情况,本文以微博自身业务为基础,充分利用关系数据库与No SQL各自的优势,创造性地提出微博数据分库存储,即用户相关信息使用关系数据库(My SQL)存储,微博相关信息使用No SQL(Cassandra)存储;与此同时,设计了关系数据库与No SQL相结合的数据存储架构,并在其服务层实现了详细的存储策略和访问策略。最后通过在微博数据集上进行的大量实验,验证了本文架构及策略的可行性,并进行了性能比较。本文所提出的架构及策略的主要贡献如下:①在解决微博海量数据存储问题的同时保证了高安全性和强事务性(部分业务)。用No SQL存储海量的微博数据,而要求高安全性与强事务性的用户信息则使用关系数据库存储。②实现了高负载情况下用户请求的高效率访问。当本文架构投入运行一定时间后,绝大部分的数据库查询都将访问Cassandra数据库,在高负载情况下,Cassandra并行计算的能力更强,因此,相对于My SQL具有更高的查询效率。③通过大量实验以及结果分析,详细地讲述整个架构和策略,为同样面临海量数据存储的其他领域提供参考的解决方案。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TP393.092
【相似文献】
中国期刊全文数据库 前10条
1 赵晓英;;关系数据库中固定数据、半固定数据、变动数据的处理[J];晋中学院学报;2005年06期
2 罗幼平;;关系数据库中的多表联接查询[J];电脑知识与技术;2006年05期
3 陈莉莹;董文;;“教、学、做一体化”在“关系数据库”课程中的应用[J];学习月刊;2010年15期
4 蔡晓兵;;模糊关系数据库和关系数据库中的模糊信息[J];贵州工学院学报;1990年01期
5 陈楚s,
本文编号:1259249
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1259249.html