当前位置:主页 > 科技论文 > 软件论文 >

移动App用户海量日志分析的优化策略与算法研究

发布时间:2018-12-14 05:12
【摘要】:随着“互联网+”的走热,各行各业都与互联网紧密的结合了起来,随之产生了海量的数据信息,尽管面对如此多的数据信息,但人们想真正找到自己感兴趣的内容也是件难事。同时互联网企业绞尽脑汁分析用户兴趣,为用户提供更好的产品、更好的服务,日志数据记录了用户的行为,基于此,如何分析挖掘互联网产品产生的海量日志数据变得非常重要。在目前数据挖掘的研究中,关联规则的挖掘是非常重要的研究方向,关联规则涉及到信息、医疗、交通、金融等多个领域的研究。在关联规则的挖掘算法中,由R.Agrawal和R.Srikant于1994年提出的Apriori算法最为经典和重要,算法的核心思想是通过迭代由k-1轮的频繁项集连接剪枝生成K轮的频繁项集。本课题主要对用户海量数据处理算法Apriori进行研究,其中主要包括以下几个研究内容:(1)关联规则算法在日志数据挖掘中的应用。该研究采集了视频APP用户的浏览、观看、检索日志数据,提出数据挖掘的流程框图,并基于Apriori算法得出视频作品之间的关联度,根据作品关联程度为用户推荐合适的视频作品。(2)Apriori算法改进的研究。Apriori算法在处理日志数据时由于频繁的扫库和生成大量的频繁项集而使时间性能较低,本研究在大量优化研究的基础上,提出对源数据、频繁项集进行二进制编码并用整数表示,通过位运算和海明距离生成频繁项集的优化策略。我们将优化策略编程实现,并分析了优化的效果。(3)优化的Apriori算法在MapReduce并行化编程模型下的扩展。面对海量日志数据,单机计算能力远不能满足大数据挖掘的需求了,本课题通过研究并行化编程模型MapReduce,将优化的Apriori算法在MapReduce下进行并行化扩展。
[Abstract]:With the "Internet" hot, various industries have been closely combined with the Internet, resulting in a huge amount of data information, despite the face of so much data information, But it is also difficult for people to really find what they are interested in. At the same time, Internet enterprises have racked their brains to analyze the interests of users, to provide better products and better services for users. How to analyze and mine the massive log data generated by Internet products becomes very important. In the current data mining research, association rules mining is a very important research direction, association rules related to information, medical, transportation, finance and other fields of research. Among the algorithms for mining association rules, the Apriori algorithm proposed by R.Agrawal and R.Srikant in 1994 is the most classical and important. The core idea of the algorithm is to generate K-wheel frequent itemsets by iterating the frequent itemsets of k-1 rounds. This paper mainly studies the user mass data processing algorithm (Apriori), which mainly includes the following research contents: (1) the application of association rule algorithm in log data mining. This study collects the browsing, viewing and retrieving log data of video APP users, puts forward the flow chart of data mining, and obtains the correlation degree between video works based on Apriori algorithm. (2) Research on the improvement of Apriori algorithm. (2) the performance of Apriori algorithm in processing log data is low due to frequent scanning and generating a large number of frequent itemsets. Based on a large number of optimization studies, this paper proposes an optimization strategy for generating frequent itemsets from source data, frequent itemsets and integer representation, and generating frequent itemsets by bit operation and hamming distance. We implement the optimization strategy programming and analyze the effect of optimization. (3) the extension of the optimized Apriori algorithm in the parallel programming model of MapReduce. In the face of massive log data, the single computer can not meet the needs of big data mining. This paper extends the optimized Apriori algorithm under MapReduce by studying the parallelization programming model MapReduce,.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 马安光;;棋子问题的算法分析——2003年第11期题解[J];程序员;2004年01期

2 冯舜玺;;新书推荐:《算法分析导论》[J];计算机教育;2006年05期

3 张力,慕晓冬;计算机算法分析浅谈[J];武警工程学院学报;2002年04期

4 马安光;;飞弹问题的算法分析——2003年第10期题解[J];程序员;2003年12期

5 苏运霖;;《算法分析导论》评介[J];计算机教育;2006年07期

6 朱力强;;培养学生创新思维与能力的算法分析案例[J];计算机与信息技术;2007年11期

7 汪菊琴;;几种常见特殊方阵的算法分析与实现[J];无锡职业技术学院学报;2009年05期

8 李涵;;“算法分析与设计”课程教学改革和实践[J];中国电力教育;2010年16期

9 刘宁;管涛;;浅析案例教学法在算法分析与设计课程中的应用[J];科技风;2011年07期

10 胡峰;王国胤;;“算法分析与设计”教学模式探索[J];当代教育理论与实践;2011年12期

相关会议论文 前10条

1 俞洋;田亚菲;;一种新的变步长LMS算法及其仿真[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年

2 姚建聪;何启盖;刘军发;;猪传染性胸膜肺炎(APP)诊断方法的研究进展[A];猪的重要传染病防治研究新成果——中国畜牧兽医学会家畜传染病学分会第五届理事会第二次全体会议暨防检疫专业委员会第7次学术交流会论文集[C];2002年

3 田凤兰;;塑性体(APP)改性沥青防水卷材及其应用技术[A];第八届防水技术专业委员会学术年会论文集[C];2004年

4 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年

5 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

6 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年

7 周颢;刘振华;赵保华;;构造型的D~2FA生成算法[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年

8 李日涵;徐广宁;徐建闽;夏创文;;基于APP的公众出行交通信息服务系统研究[A];第八届中国智能交通年会论文集[C];2013年

9 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

10 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年

相关重要报纸文章 前10条

1 王斌;手机浏览器或将替代阅读类App[N];北京商报;2012年

2 本报记者 赵家新 通讯员 殷长庆 韩瑜;扬州警方手机APP让市民一分钟找到民警[N];人民公安报;2012年

3 工信部电信研究院知识产权中心 李立委 宋文静;应用商店如何推广App[N];人民邮电;2013年

4 本报记者 姜旭 实习生 罗传莹;传统出版社如何制胜APP图书市场?[N];中国知识产权报;2013年

5 本报记者 刘浩;上海市消保委开通“3·15”APP[N];中国消费者报;2013年

6 早报记者 韩晓蓉;幼儿园试点APP直播孩子表现[N];东方早报;2013年

7 本报记者 陈洲;卸载预装APP软件受宠 折射国产手机生存困境[N];通信信息报;2013年

8 北京商报记者 魏蔚;360手机助手6月首发App超300款[N];北京商报;2014年

9 实习生 刘友婷 记者 叶小钟;广东省总推出手机APP“心灵e站”[N];工人日报;2014年

10 本报记者 郑昊 实习生 陈栋;手机APP:被“消费”的安全隐患[N];陕西日报;2014年

相关博士学位论文 前10条

1 魏哲学;样本断点距离问题的算法与复杂性研究[D];山东大学;2015年

2 刘春明;基于增强学习和车辆动力学的高速公路自主驾驶研究[D];国防科学技术大学;2014年

3 张敏霞;生物地理学优化算法及其在应急交通规划中的应用研究[D];浙江工业大学;2015年

4 李红;流程挖掘算法研究[D];云南大学;2015年

5 卜晨阳;演化约束优化及演化动态优化求解算法研究[D];中国科学技术大学;2017年

6 陈拉明;基于非凸优化的稀疏重建理论与算法[D];清华大学;2016年

7 刘新旺;多核学习算法研究[D];国防科学技术大学;2013年

8 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年

9 曾国强;改进的极值优化算法及其在组合优化问题中的应用研究[D];浙江大学;2011年

10 肖永豪;蜂群算法及在图像处理中的应用研究[D];华南理工大学;2011年

相关硕士学位论文 前10条

1 何建旺;移动App用户海量日志分析的优化策略与算法研究[D];北京邮电大学;2016年

2 黄厦;基于改进蚁群算法的柔性作业车间调度问题研究[D];昆明理工大学;2015年

3 李平;基于Hadoop的信息爬取与舆情检测算法研究[D];昆明理工大学;2015年

4 赵官宝;基于位表的关联规则挖掘算法研究[D];昆明理工大学;2015年

5 殷文华;移动容迟网络中基于社会感知的多播分发算法研究[D];内蒙古大学;2015年

6 徐翔燕;人工鱼群优化算法及其应用研究[D];西南交通大学;2015年

7 李德福;基于小世界模型的启发式寻路算法研究[D];华中师范大学;2015年

8 郑海彬;一种面向MAPREDUCE的DATASHUFFLE的优化方法[D];苏州大学;2015年

9 赵晓寒;轮换步长PSO算法及SMVSC参数优化[D];沈阳理工大学;2015年

10 安丰洋;基于无线网络的广播算法研究[D];曲阜师范大学;2015年



本文编号:2377988

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2377988.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c1621***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com