当前位置:主页 > 科技论文 > 软件论文 >

基于大数据技术的手机应用推荐系统的设计与实现

发布时间:2019-08-15 10:16
【摘要】:近年来,手机用户数量迅猛增长,手机安卓操作系统不断更新,手机应用也呈爆发式的增长态势,越来越多的手机应用出现在各种各样的应用商店中。作为手机用户,从如此众多的选择中找出符合自己兴趣的手机应用成为困难的事情。而对于手机应用公司而言,如何把握用户兴趣爱好,圈定高质量的潜在用户群体,将自己研发的手机应用有效地推广出去,降低推广成本,并提高手机应用安装率,获取更大的经济效益成为各大手机应用公司考虑的问题。用户在使用手机应用时会不断产生日志信息,这些日志信息包含了应用种类、使用时间、使用地点等各种信息,是挖掘用户兴趣爱好的重要数据来源。通过第三方安卓操作系统公司收集的日志信息,对手机用户进行用户标签,打上对应标签可以统计分析用户的兴趣爱好。针对特定的手机应用,可以通过推荐系统找到高质量的潜在用户群体,定向推广,提高手机应用安装率。作者的论文实现了基于大数据技术的手机应用推荐系统。由于手机用户产生的日志信息是大量的,为了保证数据的及时处理,采用大数据技术完成数据仓库模块,将用户不同类别信息存入对应的表中。用户标签模块给用户打上不同标签,存入非关系型数据库,供系统以可视化方式统计查询。推荐系统模块采用协同过滤算法,对特定手机应用选取潜在用户群体进行推广,提高安装率。本系统在实际应用测试过程中,对于手机应用推广安装率低的问题提供了解决方案,有效提升了安装率。根据用户标签结果,可以分主题、分维度统计查看用户分布,为公司下一步战略决策提供数据支持。
【图文】:

基本架构


Hadoop 分布式系统是由 Apache 基金开发的、开源的、用于处理海量数据平台。Hadoop 可以让用户在不需要了解系统底层细节的基础上,开大数据的程序。Hadoop 由两个核心设计:HDFS 和 MapReduce。HDop 的分布式文件系统,它的一大特点是有着非常高的容错能力,这样购买昂贵的具有容错能力的硬件设备,而可以直接构建在大量的廉价上,而集群的处理能力能够通过增加服务器数量的方式线性提Reduce 是一个大数据的计算模型,为大数据计算提供解决方案。1 HDFS 的系统架构HDFS 的体系结构由主/从(Mater/Slave)的结构组成,用户看起来是透传统文件系统,通过文件的路径执行增删改查的操作。HDFS 集群是分拥有一个 NameNode[28]节点和若干个 DataNode 节点。NameNode 是系节点,掌管着系统的命名空间和客户端对文件的访问。DataNode 是存节点。客户端通过二者交互的方式访问 HDFS。客户端首先访问 Nam文件的元数据找到数据的位置,然后再访问 DataNode 进行真正文件的S 基本架构图如图 2-1 所示:

生态系统


图 2-2 Spark 生态系统) Spark SQL。Spark SQL 提供一种类 SQL 的方式查询存储在数据例如在 Hive 数据仓库中的数据。Spark SQL 的特点之一是将表中转化为 RDD,使用类 SQL 语法和处理 RDD 的方式进行数据处理park SQL 引入了新 RDD 类型 SchemaRDD,SchemaRDD 与传统数义类似,定义了列字段,以结构化的方式读入数据。SchemaRDD多种,可以从数据库中读取,从其他 RDD 中转换,还可以从别的后转化。) Spark Streaming。Spark Streaming 是一个流式处理系统,主要用据。它的原理是将大量流式数据按照固定时间块的方式划分成为批处理作业。在读入每段数据以后,都转换成 RDD。然后通用 n 操作对 RDD 根据业务逻辑进行统一处理,最后将结果输出或者设备上。) MLlib。MLlib 是 Spark 的一个机器学习包。里面实现了很多常用数据挖掘算法,方便程序开发者直接使用。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 王成;朱志刚;张玉侠;苏芳芳;;基于用户的协同过滤算法的推荐效率和个性化改进[J];小型微型计算机系统;2016年03期

2 武常岐;张竹;;中国移动互联网市场结构现状与发展态势分析[J];管理现代化;2015年05期

3 范永全;杜亚军;;基于加权相似度的用户协同过滤方法[J];计算机工程与应用;2016年22期

4 李俊丽;;基于Linux的python多线程爬虫程序设计[J];计算机与数字工程;2015年05期

5 杨潇亮;;基于安卓操作系统的应用软件开发[J];电子制作;2014年19期

6 孙大为;张广艳;郑纬民;;大数据流式计算:关键技术及系统实例[J];软件学报;2014年04期

7 邱胜海;高成冲;王云霞;陆云;王志亮;马银忠;;大数据时代非关系型数据库教学与实验改革探索[J];电脑知识与技术;2013年31期

8 蔡孟松;李学明;尹衍腾;;基于社交用户标签的混合top-N推荐方法[J];计算机应用研究;2013年05期

9 谢华成;陈向东;;面向云存储的非结构化数据存取[J];计算机应用;2012年07期

10 朱郁筱;吕琳媛;;推荐系统评价指标综述[J];电子科技大学学报;2012年02期

相关硕士学位论文 前4条

1 张贤德;基于Spark平台的实时流计算推荐系统的研究与实现[D];江苏大学;2016年

2 刘鹏;基于Spark的数据管理平台的设计与实现[D];浙江大学;2016年

3 李浩威;基于云计算和BP神经网络的短期电价预测研究[D];华北电力大学;2015年

4 丁晓雯;CRM系统中销售过程管理子系统的设计与实现[D];哈尔滨工业大学;2014年



本文编号:2526932

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2526932.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户92d76***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com