腾讯搜搜日志分析语言LP的设计与实现
发布时间:2019-08-26 18:21
【摘要】:随着互联网的使用人数和网络应用的不断增多,全球互联网在技术方面一直在向云计算方向不断发展。云计算的兴起,究其原因,,在于互联网数据量的高速增长。现在整个互联网每年产生的数据量是在8亿TB左右,如何能够快速的处理和分析这些数据成为互联网企业生存的关键。 搜索引擎作为使用人数最多的互联网应用,其后台服务代码产生的日志数据是海量的。日志数据通常是半结构化的文本行,是一种平面的正则结构。只有将半结构化的数据转化为结构化的数据,并存储在分布式存储系统(如腾讯的XFS)或者数据库系统(如腾讯的XCUBE)中,才能够保证数据仓库中的数据质量,这些数据才能够变为真正可用和有用的数据,从而更好的支持数据挖掘。 本文主要研究如何设计一种编程语言,也就是脚本语言,这种语言能够将日志ETL(Extract、Transform and Load)化中的日志分析工作更加简单化和高效化,避免繁琐的转换代码的编写,降低代码的维护成本。同时考虑到海量数据的分布式处理,能够在数据量不断增大的情况下,仅仅通过平行地增加机器,不改动ETL代码而达到扩容的目的。 语言LP(Log Parser)是一门DSL(Domain-Specific Language)语言。LP设计的目标包括以下几个方面: (1)支持基本的语言特性:包括词法、语法以及语义的设计和实现;语言插件库的动态加载;以及代码的优化。LP语言将专注于日志数据的抽取,转换和清洗。 (2)提供ETL功能的库函数的设计和实现,专注于库函数的高效设计和实现。 (3)解释器的分布式化,基于云计算平台,提供海量数据ETL化的支撑。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP312.1
本文编号:2529477
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP312.1
【参考文献】
相关期刊论文 前10条
1 胡云;;对云计算技术及应用的研究[J];电脑开发与应用;2011年03期
2 付智慧;;云计算实施存在的问题[J];电脑知识与技术;2009年32期
3 余翔湛,殷丽华;动态共享内存缓冲池技术[J];哈尔滨工业大学学报;2004年03期
4 姚泽勤,柏又青,马建峰;利用LEX及YACC实现嵌入式SQL分析器[J];航空计算技术;2002年01期
5 徐俊刚;裴莹;;数据ETL研究综述[J];计算机科学;2011年04期
6 王龙;万振凯;;基于服务架构的云计算研究及其实现[J];计算机与数字工程;2009年07期
7 王克龙,王玲,王平立,宋斌;数据仓库中ETL技术的探讨与实践[J];计算机应用与软件;2005年11期
8 周超,阎继瑞;浅谈Linux下函数库的动态加载[J];焦作大学学报;2003年01期
9 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
10 陈方明,陈奇;基于插件思想的可重用软件设计与实现[J];计算机工程与设计;2005年01期
本文编号:2529477
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2529477.html