图数据装载工具的设计与实现
发布时间:2024-05-08 20:25
随着大数据时代的到来,生活中每天都会产生大量的数据,这些数据的数据规模很大、数据种类繁多。主要包括结构化的数据和非结构化的数据两种,其中非结构化数据中的图数据因具有很强的表达能力和擅于处理复杂关系的能力,具有很好的实际应用场景。从图数据装载的功能需求和性能需求出发,以Spark分布式框架作为为底层技术,设计并实现了一个高效的分布式的图数据装载工具。该图数据装载工具主要分为装载步骤文件的读取、多格式数据源文件的解析、顶点数据的装载、边数据的装载和关联表数据的生成与装载这五个功能模块。装载步骤文件的读取主要是服务于整个装载流程,通过解析xml格式的装载步骤文件获取装载的关键信息,将这些信息传递到装载的各个步骤中。多格式文件的解析主要是为了将数据源的数据提取出来,主要包括csv格式一类的文件数据或者关系数据库中的表。顶点数据的装载主要是完成从数据源读取数据后,进过一系列的转换,将数据转化成所需要的数据结构,然后完成顶点数据的全量装载和增量装载,同时生成顶点数据的索引,为边数据的装载提供数据支撑。边数据的装载主要是完成从数据源读取数据后,经过和顶点数据的索引进行对比后,最后将边数据经过一系列转...
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
本文编号:3967778
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
图2.1图数据装载工具的系统功能模块图
在一定规模的数据情况下能够保持较高的装载效率。(2)增量装载的性能需求,增量装载在性能需求上要稍微低一点,因为增量装载过程中涉及数据的对比,这一部分需要消耗较长的时间,所以在装载效率上在数据规模上达到亿级时装载效率争取达到每秒1千条数据记录,在数据规模上每次增量数据的规模大约....
图2.2图数据装载工具的数据流图
图2.2图数据装载工具的数据流图(1)首先通过装载步骤文件解析来读取xml格式的装载步骤文件,获取数据源的相关信息、顶点和边数据的相关信息、数据存储的相关信息。(2)根据数据源的相关信息,识别数据源的格式,对不同数据源格式文件做相应的解析,对于关系数据库的数据通过JDB....
图3.1装载步骤文件的读取的数据流程图
华中科技大学硕士学位论文3图数据装载工具的设计与实现本章将对图数据装载工具的各模块设计进行详细介绍。图数据装载工具主要包括五个功能模块,装载步骤文件的读取、多格式数据源文件的解析、顶点数据的装载、边数据的装载、关联表的生成与装载。并且针对关联表装载性能较慢....
图3.2多格式数据文件的读取的流程图
16图3.2多格式数据文件的读取的流程图在装载步骤文件中确定是从关系数据库获取数据后,从装载步骤文件中获取rl关系数据库的地址、Table表名、DbUser用户名、DbPwd用户对应的密码然后通过SparkJDBC来连接关系数据库,从中读取数据。读取的数据分为
本文编号:3967778
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3967778.html