面向农业企业画像的大数据存储技术研究
发布时间:2021-07-26 09:32
画像系统的出现,是互联网发展模式由迅速扩张变为深耕细作的标志。以农业企业为研究主体的企业画像系统能够对农业企业的发展起到导向性的作用。数据存储工作作为一个系统必不可少的部分,在面向农业企业的画像系统(以下简称“农企画像系统”)中同样占有举足轻重的地位。然而,在农企画像系统的数据存储领域,目前存在两个亟待解决的问题:1)该领域并无一套标准化的数据存储方案,既能屏蔽底层的异构数据源,又能屏蔽对异构数据源的中间操作,最终使该方案可以在该领域的同类型系统中实现通用。2)该领域并无一套成熟的数据缓存方案,可以将系统的访问性能、数据的缓存命中率、缓存使用过程中的安全隐患等问题统一考虑在内。本文以上述两个问题为出发点展开研究,主要工作可以总结为以下几点:(1)提出面向农企画像系统的通用数据存储模型。该模型由通用操作算子表达式、解析映射器、操作算子实现集、异构存储工具组成。通用操作算子表达式的定义本着高度抽象的原则,可适用于农企画像系统的各种业务场景,具有稳定性、兼容性等特点。操作算子实现集可以完成异构数据源到异构存储工具的存储工作。解析映射器负责解析操作算子表达式,并将表达式的内容映射到对应的算子实...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
存储模型逻辑图
第 2 章 相关技术分析(二)分布式文件系统 HDFSHDFS(HadoopDistributedFileSystem)是开源项目 Hadoop 的分布式文件系统,为 Hadoop 中的海量数据提供了管理和存储的支撑。HDFS 之所以能够迅速成为业界使用最为广泛的分布式文件系统,主要有以下几个原因:1)对超大数据(GB 级别以上)提供了存储支持;2)自动对数据进行分块管理,提升了数据访问的带宽;3)数据的多副本存储机制保证了数据的安全性;4)廉价的存储节点使得集群的部署门槛较低[43]。如今流行的大数据计算引擎 Spark 可以无缝对接到 HDFS 文件系统中,利用 Spark 的数据分析类库对 HDFS 文件系统中的数据进行分析计算。HDFS 采用一主多从的架构,其架构如图 2-1 所示。
图 2-2 HDFS 文件写入过程Figure 2-2 HDFS file writing process图 2-2 展示了 HDFS 中文件的写入过程。具体过程如下:首先客户端会调用DistributedFileSystem 的 create 方法与 Namenode 通信,在 Namenode 中创建一个新文件。创建成功后,Namenode 返回一个 DFSOutputStream 对象给客户端,此后客户端与 Datanode 之间的数据传输全部依靠此对象完成。由于上述步骤只在Namenode 中创建了新文件,并没有在 Namenode 中申请真正的数据块地址,因此在客户端与 Datanode 进行真正的数据传输之前,应该先向 Namenode 中申请新的数据块,当数据块申请完毕后,客户端与 Datanode 之间开始真正的数据传输。数据会被分割成多个小数据包
【参考文献】:
期刊论文
[1]大数据时代——从冯·诺依曼到计算存储融合[J]. 邱赐云,李礼,张欢,吴佳. 计算机科学. 2018(S2)
[2]一种用户画像系统的设计与实现[J]. 王洋,丁志刚,郑树泉,齐文秀. 计算机应用与软件. 2018(03)
[3]Redis数据库可靠性与自适应持久化改进方案[J]. 余景寰,李贞昊. 信息系统工程. 2017(02)
[4]简析数据存储发展历程[J]. 党红恩,赵尔平,雒伟群. 通讯世界. 2016(03)
[5]农业大数据综述[J]. 张浩然,李中良,邹腾飞,魏旭阳,杨国才. 计算机科学. 2014(S2)
[6]关系代数运算与SQL查询的对应关系[J]. 李莹,代勤. 内蒙古农业大学学报(自然科学版). 2003(03)
硕士论文
[1]基于企业画像的公示数据查询系统设计与实现[D]. 王雪.大连海事大学 2017
[2]大型电商网站服务系统关键改进的研究和实现[D]. 罗文韬.中国科学院大学(工程管理与信息技术学院) 2016
[3]大型网络游戏高性能系统架构和并发技术研究[D]. 李东旭.北京理工大学 2015
[4]基于Nginx和Memcached的高并发WEB服务器设计[D]. 戴华.复旦大学 2013
本文编号:3303306
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
存储模型逻辑图
第 2 章 相关技术分析(二)分布式文件系统 HDFSHDFS(HadoopDistributedFileSystem)是开源项目 Hadoop 的分布式文件系统,为 Hadoop 中的海量数据提供了管理和存储的支撑。HDFS 之所以能够迅速成为业界使用最为广泛的分布式文件系统,主要有以下几个原因:1)对超大数据(GB 级别以上)提供了存储支持;2)自动对数据进行分块管理,提升了数据访问的带宽;3)数据的多副本存储机制保证了数据的安全性;4)廉价的存储节点使得集群的部署门槛较低[43]。如今流行的大数据计算引擎 Spark 可以无缝对接到 HDFS 文件系统中,利用 Spark 的数据分析类库对 HDFS 文件系统中的数据进行分析计算。HDFS 采用一主多从的架构,其架构如图 2-1 所示。
图 2-2 HDFS 文件写入过程Figure 2-2 HDFS file writing process图 2-2 展示了 HDFS 中文件的写入过程。具体过程如下:首先客户端会调用DistributedFileSystem 的 create 方法与 Namenode 通信,在 Namenode 中创建一个新文件。创建成功后,Namenode 返回一个 DFSOutputStream 对象给客户端,此后客户端与 Datanode 之间的数据传输全部依靠此对象完成。由于上述步骤只在Namenode 中创建了新文件,并没有在 Namenode 中申请真正的数据块地址,因此在客户端与 Datanode 进行真正的数据传输之前,应该先向 Namenode 中申请新的数据块,当数据块申请完毕后,客户端与 Datanode 之间开始真正的数据传输。数据会被分割成多个小数据包
【参考文献】:
期刊论文
[1]大数据时代——从冯·诺依曼到计算存储融合[J]. 邱赐云,李礼,张欢,吴佳. 计算机科学. 2018(S2)
[2]一种用户画像系统的设计与实现[J]. 王洋,丁志刚,郑树泉,齐文秀. 计算机应用与软件. 2018(03)
[3]Redis数据库可靠性与自适应持久化改进方案[J]. 余景寰,李贞昊. 信息系统工程. 2017(02)
[4]简析数据存储发展历程[J]. 党红恩,赵尔平,雒伟群. 通讯世界. 2016(03)
[5]农业大数据综述[J]. 张浩然,李中良,邹腾飞,魏旭阳,杨国才. 计算机科学. 2014(S2)
[6]关系代数运算与SQL查询的对应关系[J]. 李莹,代勤. 内蒙古农业大学学报(自然科学版). 2003(03)
硕士论文
[1]基于企业画像的公示数据查询系统设计与实现[D]. 王雪.大连海事大学 2017
[2]大型电商网站服务系统关键改进的研究和实现[D]. 罗文韬.中国科学院大学(工程管理与信息技术学院) 2016
[3]大型网络游戏高性能系统架构和并发技术研究[D]. 李东旭.北京理工大学 2015
[4]基于Nginx和Memcached的高并发WEB服务器设计[D]. 戴华.复旦大学 2013
本文编号:3303306
本文链接:https://www.wllwen.com/shekelunwen/sannong/3303306.html