基于大数据技术的手机应用推荐系统的设计与实现

发布时间：2019-08-15 10:16

【摘要】：近年来,手机用户数量迅猛增长,手机安卓操作系统不断更新,手机应用也呈爆发式的增长态势,越来越多的手机应用出现在各种各样的应用商店中。作为手机用户,从如此众多的选择中找出符合自己兴趣的手机应用成为困难的事情。而对于手机应用公司而言,如何把握用户兴趣爱好,圈定高质量的潜在用户群体,将自己研发的手机应用有效地推广出去,降低推广成本,并提高手机应用安装率,获取更大的经济效益成为各大手机应用公司考虑的问题。用户在使用手机应用时会不断产生日志信息,这些日志信息包含了应用种类、使用时间、使用地点等各种信息,是挖掘用户兴趣爱好的重要数据来源。通过第三方安卓操作系统公司收集的日志信息,对手机用户进行用户标签,打上对应标签可以统计分析用户的兴趣爱好。针对特定的手机应用,可以通过推荐系统找到高质量的潜在用户群体,定向推广,提高手机应用安装率。作者的论文实现了基于大数据技术的手机应用推荐系统。由于手机用户产生的日志信息是大量的,为了保证数据的及时处理,采用大数据技术完成数据仓库模块,将用户不同类别信息存入对应的表中。用户标签模块给用户打上不同标签,存入非关系型数据库,供系统以可视化方式统计查询。推荐系统模块采用协同过滤算法,对特定手机应用选取潜在用户群体进行推广,提高安装率。本系统在实际应用测试过程中,对于手机应用推广安装率低的问题提供了解决方案,有效提升了安装率。根据用户标签结果,可以分主题、分维度统计查看用户分布,为公司下一步战略决策提供数据支持。
【图文】：

基本架构

Hadoop 分布式系统是由 Apache 基金开发的、开源的、用于处理海量数据平台。Hadoop 可以让用户在不需要了解系统底层细节的基础上，开大数据的程序。Hadoop 由两个核心设计：HDFS 和 MapReduce。HDop 的分布式文件系统，它的一大特点是有着非常高的容错能力，这样购买昂贵的具有容错能力的硬件设备，而可以直接构建在大量的廉价上，而集群的处理能力能够通过增加服务器数量的方式线性提Reduce 是一个大数据的计算模型，为大数据计算提供解决方案。1 HDFS 的系统架构HDFS 的体系结构由主/从(Mater/Slave)的结构组成，用户看起来是透传统文件系统，通过文件的路径执行增删改查的操作。HDFS 集群是分拥有一个 NameNode[28]节点和若干个 DataNode 节点。NameNode 是系节点，掌管着系统的命名空间和客户端对文件的访问。DataNode 是存节点。客户端通过二者交互的方式访问 HDFS。客户端首先访问 Nam文件的元数据找到数据的位置，然后再访问 DataNode 进行真正文件的S 基本架构图如图 2-1 所示：

生态系统

图 2-2 Spark 生态系统) Spark SQL。Spark SQL 提供一种类 SQL 的方式查询存储在数据例如在 Hive 数据仓库中的数据。Spark SQL 的特点之一是将表中转化为 RDD，使用类 SQL 语法和处理 RDD 的方式进行数据处理park SQL 引入了新 RDD 类型 SchemaRDD，SchemaRDD 与传统数义类似，定义了列字段，以结构化的方式读入数据。SchemaRDD多种，可以从数据库中读取，从其他 RDD 中转换，还可以从别的后转化。) Spark Streaming。Spark Streaming 是一个流式处理系统，主要用据。它的原理是将大量流式数据按照固定时间块的方式划分成为批处理作业。在读入每段数据以后，都转换成 RDD。然后通用 n 操作对 RDD 根据业务逻辑进行统一处理，最后将结果输出或者设备上。) MLlib。MLlib 是 Spark 的一个机器学习包。里面实现了很多常用数据挖掘算法，方便程序开发者直接使用。
【学位授予单位】：哈尔滨工业大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP391.3

【参考文献】