当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向用户个性化推荐的日志分析系统设计与实现

发布时间:2019-05-27 09:43
【摘要】:近年来,随着计算机的普及和互联网的发展,使用互联网的用户数和互联网上充斥的各类信息量突飞猛进,如何快速从互联网海量的数据信息中获取用户所关注的信息已成为用户最为关心的问题之一,也是互联网服务网站能够吸引用户使用的要点。同时网络视频业务也已成为互联网应用的最大热点,随着媒体事业的发展和台网联动的推广,提供网络视频业务的网站数量和互联网上视频数量也越来越多,通过关键字查询的搜索引擎显然已无法满足用户快速获取视频的需求,此时,基于主动推送的推荐引擎应运而生。互联网的用户数量和视频数量的急剧增长为推荐系统带来了新的问题。首先,海量用户日志信息的存储对推荐系统的存储模块提出了新的挑战,需保障存储数据的可靠性和存储容量的可扩展性;其次,海量日志信息的分析和推荐计算对系统处理数据的性能提出了更高的要求;最后,推荐引擎推送的视频信息要能够吸引用户,这就要求推荐引擎的推荐结果具有较高的准确有效性。本文针对推荐系统在面对海量数据信息时需要解决的各种问题,基于Hadoop分布式平台及其系列子项目提出了一种解决方案——面向用户个性化推荐的日志分析系统。该系统利用Hadoop分布式文件系统(HDFS)的可靠性和可扩展性的特点,使用基于HDFS的数据仓库Hive作为海量日志信息的存储平台,保证了用户日志信息存储的可靠性和可扩展性;利用Hadoop并行计算编程模型Map/Reduce的高效性特点,使用能够将SQL语句转换为Map/Reduce任务执行的Hive作为用户日志信息分析的平台,并使用借助Map/Reduce实现并行推荐计算的机器学习算法库Mahout封装的协同过滤算法来实现推荐引擎,实现了高性能的日志分析和推荐计算;最后通过分析Mahout源码和视频推荐的特点,优化了Mahout的推荐算法源码,以期提高推荐结果的准确有效性。为了对系统进行验证,本文设计了详细的测试方案。首先,从功能上验证了面向用户个性化推荐的日志分析系统的可用性和系统日志存储模块的可靠性、可扩展性;其次,从性能上验证了日志分析和推荐计算效率的提升;接着验证了优化后的推荐算法对推荐结果准确有效性的提升;最后通过搭建真实的实验环境,验证了系统的实际工作效果。
[Abstract]:In recent years, with the popularity of computers and the development of the Internet, the number of users using the Internet and all kinds of information filled with the Internet have advanced by leaps and bounds. How to quickly obtain the information concerned by users from the massive data information of the Internet has become one of the most concerned issues for users, and it is also the key point that Internet service websites can attract users to use. At the same time, the network video service has become the biggest hot spot of the Internet application. With the development of the media industry and the promotion of the network linkage, the number of websites providing network video service and the number of videos on the Internet are also increasing. The search engine through keyword query obviously can not meet the needs of users to get video quickly. At this time, the recommendation engine based on active push emerges as the times require. The rapid increase in the number of users and videos on the Internet has brought new problems to the recommendation system. First of all, the storage of massive user log information poses a new challenge to the storage module of the recommendation system, and it is necessary to ensure the reliability of storage data and the scalability of storage capacity. Secondly, the analysis and recommendation calculation of massive log information puts forward higher requirements for the performance of the system in processing data. Finally, the video information pushed by the recommendation engine should be able to attract users, which requires the recommendation results of the recommendation engine to have high accuracy and effectiveness. In order to solve all kinds of problems that recommendation system needs to solve in the face of massive data information, this paper proposes a solution based on Hadoop distributed platform and its series of subprojects-user personalized recommendation log analysis system. The system makes use of the reliability and expansibility of Hadoop distributed file system (HDFS), and uses the data warehouse Hive based on HDFS as the storage platform of massive log information, which ensures the reliability and scalability of user log information storage. Taking advantage of the efficient characteristics of Hadoop parallel computing programming model Map/Reduce, Hive, which can convert SQL statements into Map/Reduce tasks, is used as the platform for user log information analysis. The collaborative filtering algorithm packaged by Mahout, which realizes parallel recommendation computing with the help of Map/Reduce, is used to realize the recommendation engine, and the high performance log analysis and recommendation calculation are realized. Finally, by analyzing the characteristics of Mahout source code and video recommendation, the source code of Mahout recommendation algorithm is optimized in order to improve the accuracy and effectiveness of the recommendation results. In order to verify the system, a detailed test scheme is designed in this paper. Firstly, the availability of the user-oriented personalized recommendation log analysis system and the reliability and scalability of the system log storage module are verified from the functional point of view. Secondly, the performance of log analysis and recommendation computing efficiency is verified. Then the optimized recommendation algorithm is verified to improve the accuracy and effectiveness of the recommendation results. Finally, the actual working effect of the system is verified by building a real experimental environment.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 张晓刚;潘久辉;;MS SQL Server 2000日志分析方法的研究与实现[J];计算机工程与设计;2006年19期

2 李春林;周根鸿;张文体;;重视日志审计确保数据安全[J];医学信息;2007年10期

3 梁晓雪;王锋;;基于聚类的日志分析技术综述与展望[J];云南大学学报(自然科学版);2009年S1期

4 黄海隆;陈赛娉;;计算机日志分析与管理方法的研究[J];大众科技;2006年07期

5 郑毅;;基于日志分析的网络IDS研究[J];襄樊学院学报;2008年11期

6 陈庭平;沈丽娟;曾鹏;;日志服务器建设和应用[J];网络安全技术与应用;2010年09期

7 邹先霞;贾维嘉;潘久辉;;基于数据库日志的变化数据捕获研究[J];小型微型计算机系统;2012年03期

8 罗新;;防火墙日志分析系统的设计与实现[J];计算机时代;2012年02期

9 姜良华;崔建明;;Serv-U FTP服务器日志分析系统设计与实现[J];电脑知识与技术;2010年28期

10 李玉荣;杨树强;贾焰;周斌;樊宇;;分布式日志服务关键技术研究[J];计算机工程与应用;2006年07期

相关会议论文 前10条

1 马辰;武斌;;一种基于攻击事件图的蜜网日志分析方法[A];虚拟运营与云计算——第十八届全国青年通信学术年会论文集(下册)[C];2013年

2 周涛;;基于数据挖掘的入侵检测日志分析技术研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年

3 陈晨;郑康锋;;一种基于支持向量机的蜜网系统日志分析方法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年

4 刘莉;;基于多协议技术的日志集中管理安全方案[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年

5 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年

6 闫龙川;王怀宇;李枫;毛一凡;;基于Hadoop的邮件日志分析与研究[A];2012电力行业信息化年会论文集[C];2012年

7 陈庆章;王磊;毛科技;戴国勇;;基于防火墙日志的在线攻击侦查系统的设计与实现(英文)[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

8 王振亚;武斌;;基于MFI-WT算法的蜜网日志分析方法[A];第十七届全国青年通信学术年会论文集[C];2012年

9 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

10 朱金清;王建新;陈志泊;;基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

相关重要报纸文章 前10条

1 中航工业南方航空工业集团(有限)公司科技与信息部 邹沪湘;分析日志识别暴力破解[N];计算机世界;2013年

2 ;日志分析中的五个误区[N];网络世界;2004年

3 陈代寿;网管的四两拨千斤[N];中国计算机报;2004年

4 IBM大数据专家 James Kobielus 范范 编译;大数据日志分析借机器学习腾飞[N];网络世界;2014年

5 《网络世界》评测实验室 于洋;用好Web日志[N];网络世界;2004年

6 重庆 航行者;IIS的安全[N];电脑报;2002年

7 河南工业职业技术学院 邱建新;监测Squid日志的五种方法[N];计算机世界;2005年

8 shotgun;入侵检测初步(上)[N];电脑报;2001年

9 朱闵;浅谈企业核心应用的安全审计(下)[N];网络世界;2008年

10 覃进文;在Windows 2000&&2003下快速安装Webalizer[N];中国电脑教育报;2003年

相关博士学位论文 前3条

1 饶翔;基于日志的大规模分布式软件系统可信保障技术研究[D];国防科学技术大学;2011年

2 曹志波;基于日志的任务建模及调度优化的研究[D];华南理工大学;2014年

3 胡蓉;WEB日志和子空间聚类挖掘算法研究[D];华中科技大学;2008年

相关硕士学位论文 前10条

1 张之宣;云计算环境下实时日志分析系统的设计与实现[D];浙江大学;2016年

2 李华民;UC日志收集系统的设计与实现[D];北京交通大学;2015年

3 张永霞;面向用户个性化推荐的日志分析系统设计与实现[D];北京邮电大学;2013年

4 颜斯哲;安全操作平台中日志过滤与解析范化的研究[D];中南大学;2009年

5 杨华;可视化日志分析系统的研究与实现[D];西安电子科技大学;2010年

6 薛文娟;基于层次聚类的日志分析技术研究[D];山东师范大学;2013年

7 曾金梁;分布式日志分析系统的设计与实现[D];北京邮电大学;2014年

8 范惊;高精度的程序日志解析技术研究[D];上海交通大学;2013年

9 冯鑫;日志解析系统的设计与实现[D];大连理工大学;2013年

10 张文选;通用防火墙日志分析系统设计及实现[D];长春理工大学;2004年



本文编号:2486047

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2486047.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f7987***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com