基于大数据技术的手机应用推荐系统的设计与实现
【图文】:
Hadoop 分布式系统是由 Apache 基金开发的、开源的、用于处理海量数据平台。Hadoop 可以让用户在不需要了解系统底层细节的基础上,开大数据的程序。Hadoop 由两个核心设计:HDFS 和 MapReduce。HDop 的分布式文件系统,它的一大特点是有着非常高的容错能力,这样购买昂贵的具有容错能力的硬件设备,而可以直接构建在大量的廉价上,而集群的处理能力能够通过增加服务器数量的方式线性提Reduce 是一个大数据的计算模型,为大数据计算提供解决方案。1 HDFS 的系统架构HDFS 的体系结构由主/从(Mater/Slave)的结构组成,用户看起来是透传统文件系统,通过文件的路径执行增删改查的操作。HDFS 集群是分拥有一个 NameNode[28]节点和若干个 DataNode 节点。NameNode 是系节点,掌管着系统的命名空间和客户端对文件的访问。DataNode 是存节点。客户端通过二者交互的方式访问 HDFS。客户端首先访问 Nam文件的元数据找到数据的位置,然后再访问 DataNode 进行真正文件的S 基本架构图如图 2-1 所示:
图 2-2 Spark 生态系统) Spark SQL。Spark SQL 提供一种类 SQL 的方式查询存储在数据例如在 Hive 数据仓库中的数据。Spark SQL 的特点之一是将表中转化为 RDD,使用类 SQL 语法和处理 RDD 的方式进行数据处理park SQL 引入了新 RDD 类型 SchemaRDD,SchemaRDD 与传统数义类似,定义了列字段,以结构化的方式读入数据。SchemaRDD多种,可以从数据库中读取,从其他 RDD 中转换,还可以从别的后转化。) Spark Streaming。Spark Streaming 是一个流式处理系统,主要用据。它的原理是将大量流式数据按照固定时间块的方式划分成为批处理作业。在读入每段数据以后,都转换成 RDD。然后通用 n 操作对 RDD 根据业务逻辑进行统一处理,最后将结果输出或者设备上。) MLlib。MLlib 是 Spark 的一个机器学习包。里面实现了很多常用数据挖掘算法,方便程序开发者直接使用。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 王成;朱志刚;张玉侠;苏芳芳;;基于用户的协同过滤算法的推荐效率和个性化改进[J];小型微型计算机系统;2016年03期
2 武常岐;张竹;;中国移动互联网市场结构现状与发展态势分析[J];管理现代化;2015年05期
3 范永全;杜亚军;;基于加权相似度的用户协同过滤方法[J];计算机工程与应用;2016年22期
4 李俊丽;;基于Linux的python多线程爬虫程序设计[J];计算机与数字工程;2015年05期
5 杨潇亮;;基于安卓操作系统的应用软件开发[J];电子制作;2014年19期
6 孙大为;张广艳;郑纬民;;大数据流式计算:关键技术及系统实例[J];软件学报;2014年04期
7 邱胜海;高成冲;王云霞;陆云;王志亮;马银忠;;大数据时代非关系型数据库教学与实验改革探索[J];电脑知识与技术;2013年31期
8 蔡孟松;李学明;尹衍腾;;基于社交用户标签的混合top-N推荐方法[J];计算机应用研究;2013年05期
9 谢华成;陈向东;;面向云存储的非结构化数据存取[J];计算机应用;2012年07期
10 朱郁筱;吕琳媛;;推荐系统评价指标综述[J];电子科技大学学报;2012年02期
相关硕士学位论文 前4条
1 张贤德;基于Spark平台的实时流计算推荐系统的研究与实现[D];江苏大学;2016年
2 刘鹏;基于Spark的数据管理平台的设计与实现[D];浙江大学;2016年
3 李浩威;基于云计算和BP神经网络的短期电价预测研究[D];华北电力大学;2015年
4 丁晓雯;CRM系统中销售过程管理子系统的设计与实现[D];哈尔滨工业大学;2014年
,本文编号:2526932
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2526932.html